无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > 魔搭ModelScope社區(qū)最新資訊  > 正文

    幻方DeepSeek-V2系列模型已在魔搭社區(qū)開源

    2024-05-08 09:57 · 稿源:站長(zhǎng)之家

    站長(zhǎng)之家(ChinaZ.com) 5月8日 消息:魔搭ModelScope社區(qū)宣布,DeepSeek-V2系列模型現(xiàn)已在魔搭ModelScope社區(qū)開源。

    據(jù)悉,幻方公司在5月6日推出了第二代 MoE 模型 DeepSeek-V2,并開源了技術(shù)報(bào)告和模型權(quán)重,該模型引入了 MLA 架構(gòu)和自研 Sparse 結(jié)構(gòu) DeepSeekMoE,以236B 總參數(shù)、21B 激活,實(shí)際部署在8卡 H800機(jī)器上,輸入吞吐量超過每秒10萬 tokens 輸出超過每秒5萬 tokens。

    微信截圖_20240508095929.png

    性能方面,在目前大模型主流榜單中,DeepSeek-V2均表現(xiàn)出色:

    • 中文綜合能力(AlignBench)開源模型中最強(qiáng),與GPT-4-Turbo,文心4.0等閉源模型在評(píng)測(cè)中處于同一梯隊(duì)

    • 英文綜合能力(MT-Bench)與最強(qiáng)的開源模型LLaMA3-70B同處第一梯隊(duì),超過最強(qiáng)MoE開源模型Mixtral8x22B

    • 知識(shí)、數(shù)學(xué)、推理、編程等榜單結(jié)果也位居前列

    • 支持128K上下文窗口

    和DeepSeek67B相比,DeepSeek-V2節(jié)約了42.5%訓(xùn)練成本,推理的KV Cache節(jié)約了93.3%,最大吞吐是之前的576%。

    DeepSeek-V2的推理代碼和模型下載鏈接已經(jīng)在魔搭 ModelScope 社區(qū)開源,用戶可以通過該平臺(tái)直接下載模型。

    項(xiàng)目地址:

    DeepSeek-V2-Chat:

    https://modelscope.cn/models/deepseek-ai/DeepSeek-V2-Chat

    DeepSeek-V2:

    https://modelscope.cn/models/deepseek-ai/DeepSeek-V2

    舉報(bào)

    • 相關(guān)推薦
    • DeepSeek上新!開源發(fā)布DeepSeek-Prover-V2-671B新模型

      快科技4月30日消息,今日,DeepSeek 今日在 AI 開源社區(qū) Hugging Face 發(fā)布了一個(gè)名為 DeepSeek-Prover-V2-671B 的新模型。據(jù)介紹,DeepSeek-Prover-V2-671B 其參數(shù)量達(dá)到6710億,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多種計(jì)算精度,方便模型更快、更省資源地訓(xùn)練和部署。在模型架構(gòu)上,該模型使用了DeepSeek-V3架構(gòu),采用MoE(混合專家)模式,具有61層Transformer層,7168維隱藏層。同時(shí)支持超長(zhǎng)上下文,最大位置嵌入達(dá)163840,使其能處理復(fù)雜的數(shù)學(xué)證明,并且采用了FP8量化,可通過量化技術(shù)減小模型大小,提

    • DeepSeek帶飛寒武紀(jì)

      寒武紀(jì)憑借AI芯片業(yè)務(wù)實(shí)現(xiàn)扭虧為盈,2024年首次實(shí)現(xiàn)上市后盈利,2025年Q1營(yíng)收11.11億元同比暴增4230%,凈利潤(rùn)3.55億元。這家曾連虧8年、累計(jì)虧損54億元的"中國(guó)版英偉達(dá)",因美國(guó)對(duì)H20芯片出口管制獲得市場(chǎng)紅利,但客戶集中度過高(前五大客戶貢獻(xiàn)94.63%營(yíng)收)和現(xiàn)金流波動(dòng)仍是隱憂。當(dāng)前國(guó)產(chǎn)芯片迎來發(fā)展機(jī)遇,華為昇騰、壁仞等企業(yè)紛紛搶占市場(chǎng),行業(yè)競(jìng)爭(zhēng)日趨激烈。

    • DeepSeek紅利耗盡后,元寶拿什么和豆包斗?

      短短60天內(nèi),中國(guó)AI原生應(yīng)用下載排行榜的位次排名,就三易其主。最新情況是,截至4月15日中午,中國(guó)區(qū)蘋果應(yīng)用商店免費(fèi)APP下載排行榜上,豆包再次超越DeepSeek,位列第二,緊隨其后的DeepSeek被擠到了第三的位置,騰訊元寶則滑落到了第七名。2月13日,作為首家在C端主力產(chǎn)品中接入DeepSeek-R1滿血版的元寶,一度趁著DeepSeek東風(fēng)崛起:3月3日力壓DeepSeek和豆包,首度登頂。但好景?

    • DeepSeek的極致諂媚,正在摧毀我們的判斷力。

      昨天別人給我發(fā)了一個(gè)很好玩的帖子。就是如果你問DeepSeek一個(gè)問題:“北京大學(xué)和清華大學(xué)哪個(gè)更好,二選一,不需要說明理由”DeepSeek在思考了15秒之后,會(huì)給出答案。

    • DeepSeek領(lǐng)航大模型普惠化浪潮,xAI/微美全息加速開源AI布局打造新格局

      DeepSeek 作為當(dāng)前最受關(guān)注的大模型之一,憑借其技術(shù)創(chuàng)新正在加速 AI 普惠化進(jìn)程。根據(jù)機(jī)構(gòu)新報(bào)告顯示,DeepSeek已經(jīng)成為全球增長(zhǎng)最快的AI工具,其每月新增網(wǎng)站訪問量已經(jīng)超過OpenAI的ChatGPT。DeepSeek市場(chǎng)份額全球第三目前,DeepSeek市場(chǎng)份額6.58%,僅次于ChatGPT和Canva。DeepSeek是繼ChatGPT之后的又一現(xiàn)象級(jí)AI產(chǎn)品,它的市場(chǎng)份額從2.34%快速增長(zhǎng)至6.58%,展現(xiàn)出強(qiáng)勁的增長(zhǎng)態(tài)勢(shì)。全球著名?

    • 奧特曼:ChatGPT不是AGI!OpenAI最強(qiáng)開源模型直擊DeepSeek

      【新智元導(dǎo)讀】代碼截圖泄露,滿血版o3、o4-mini鎖定下周!更勁爆的是,一款據(jù)稱是OpenAI的神秘模型一夜爆紅,每日處理高達(dá)260億token,是Claude用量4倍。奧特曼在TED放話:將推超強(qiáng)開源模型,直面DeepSeek挑戰(zhàn)。持續(xù)的創(chuàng)新、豐富的資源和智能AI將會(huì)無縫融入日常生活,未來一代人將會(huì)覺得當(dāng)前人們又辛苦又落后。

    • Llama 4大模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

      被寄予厚望的美國(guó)Meta公司的最新開源大模型Llama4發(fā)布不到2天時(shí)間,口碑急轉(zhuǎn)直下,被質(zhì)疑為刷榜作弊實(shí)際效果差、開源條件多部署門檻高是偽開源等。大模型評(píng)測(cè)平臺(tái)LMArena親自下場(chǎng)發(fā)文,打臉Meta提供給平臺(tái)的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺,恐將在AI競(jìng)賽中進(jìn)一步失去開發(fā)者支持。

    • AI進(jìn)化論——音樂、繪畫和舞蹈的DeepSeek時(shí)刻

      “昔者倉(cāng)頡作書天雨粟,鬼夜哭”——人類掌握文字后,天地為之動(dòng)容,因?yàn)閷儆谌祟惖奈拿髡Q生了?!皞}(cāng)頡作書”出自西漢《淮南子》,距離人類掌握文字已經(jīng)過去了千年。AI進(jìn)化的答案,或許早就鐫刻在人類文明的起點(diǎn)里。

    • 深夜突襲,DeepSeek-Prover-V2加冕數(shù)學(xué)王者!671B數(shù)學(xué)推理逆天狂飆

      DeepSeek發(fā)布數(shù)學(xué)推理模型DeepSeek-Prover-V2,包含7B和671B兩個(gè)參數(shù)版本。該模型采用"遞歸+強(qiáng)化學(xué)習(xí)"訓(xùn)練方法,在MiniF2F測(cè)試集上達(dá)到88.9%通過率,解決了PutnamBench中的49道題目。關(guān)鍵技術(shù)包括:1) 使用DeepSeek-V3分解復(fù)雜定理生成子目標(biāo);2) GRPO算法從多個(gè)候選方案中自動(dòng)學(xué)習(xí)最優(yōu)解;3) 通過思維鏈整合非形式化推理與形式化證明。模型在AIME競(jìng)賽題和教科書題目上也表現(xiàn)優(yōu)異,7B小模型意外在部分問題上超越大模型。論文指出該方法為通向AGI提供了正確路徑,未來將擴(kuò)展至IMO級(jí)別數(shù)學(xué)難題。

    • 深度deepin 23.1正式發(fā)布!AI默認(rèn)引擎切換至DeepSeek、修復(fù)超百項(xiàng)問題

      快科技4月16日消息,今天,深度操作系統(tǒng)宣布,deepin 23.1版本已正式發(fā)布。此版本聚焦于解決基礎(chǔ)組件更新后的安裝效率問題,大幅提升新用戶安裝體驗(yàn),同時(shí)集成多項(xiàng)功能優(yōu)化與問題修復(fù),進(jìn)一步優(yōu)化系統(tǒng)使用。本次版本的重點(diǎn)改進(jìn)包括內(nèi)核優(yōu)化、AI 默認(rèn)引擎切換至DeepSeek、修復(fù)超百項(xiàng)用戶反饋問題等,具體重點(diǎn)改進(jìn)如下:硬件兼容性與內(nèi)核優(yōu)化:集成6.6/6.12內(nèi)核更新、NVIDIA顯卡驅(qū)動(dòng)升級(jí)、Intel/AMD CPU微碼更新,全面提升硬件支持與底層性能;核心功能增強(qiáng):DDE新增智能鏡像源管理、緊湊模式入口,全局搜索支持離線自然語言與AI處理能力;?

    熱文

    • 3 天
    • 7天