无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > DeepSeek-R1最新資訊  > 正文

    142頁長文揭秘DeepSeek-R1「思維大腦」,開啟全新「思維鏈學(xué)」研究

    2025-04-22 16:29 · 稿源: 新智元公眾號(hào)

    聲明:本文來自于微信公眾號(hào) 新智元,授權(quán)站長之家轉(zhuǎn)載發(fā)布。

    你是否曾想過DeepSeek-R1為什么能「思考」?

    距離DeepSeek-R1這只「巨鯨」引發(fā)的全球AI海嘯似乎剛剛平靜下來,但推理模型已經(jīng)成為了AI寵兒。

    不論是Gemini 2.5Pro,還是o3,o4-mini,以及所有人都在期待的DeepSeek-R2,都是推理模型

    R1的出現(xiàn)帶火了推理模型外,也催生了一個(gè)新的研究領(lǐng)域:思維鏈學(xué)(Thoughtology)。

    魁北克人工智能研究所聯(lián)合麥吉爾大學(xué)和哥本哈根大學(xué)最近發(fā)布了這一研究領(lǐng)域的詳細(xì)研究,這份長達(dá)142頁的報(bào)告深入探討了R1的思維鏈。

    同時(shí)這份研究報(bào)告也登上了HuggingFace的Daily Papers。

    圖片

    論文地址:https://arxiv.org/pdf/2504.07128

    研究團(tuán)隊(duì)從DeepSeek-R1推理的基本構(gòu)件出發(fā),分析其推理鏈的長度對性能的影響、對長或混亂上下文的處理能力、安全性和文化問題、以及它在人類類比語言處理和世界建模中的表現(xiàn)。

    研究報(bào)告涵蓋了多個(gè)獨(dú)特的維度:安全性、世界建模、忠誠度、長情境等。

    圖片

    研究結(jié)果發(fā)現(xiàn)幾個(gè)關(guān)鍵亮點(diǎn):

    • DeepSeek-R1存在一個(gè)「推理甜點(diǎn)區(qū)」(sweet spot),即過多推理反而損害性能。

    • 模型傾向于反復(fù)沉溺在已探索的方案中,阻礙進(jìn)一步探索。

    • 相比不具備推理能力的版本,DeepSeek-R1展現(xiàn)出更高的安全風(fēng)險(xiǎn),這可能對安全對齊的LLM構(gòu)成挑戰(zhàn)。

    還有更豐富的研究細(xì)節(jié),讓我們開始吧。

    DeepSeek-R1「思維鏈學(xué)」(Thoughtology)

    一個(gè)人所取得的成就,或未能達(dá)成的目標(biāo),都是其思想的直接結(jié)果。

    ——James Allen,《As a Man Thinketh》

    模型的推理能力正在發(fā)生一種質(zhì)變——推理不再僅靠提示引導(dǎo),而是內(nèi)嵌在模型本身中。

    類似DeepSeek-R1這樣的「大推理模型」(Large Reasoning Models, LRM)標(biāo)志著LLMs處理復(fù)雜問題方式的根本轉(zhuǎn)變。

    DeepSeek-R1首次公開推理過程,但是最受傷的是OpenAI。

    OpenAI的o1(2024)是首個(gè)展示LRM巨大潛力的模型,但OpenAI并未公開其推理過程。

    所以R1一亮相就驚艷了世人,把o1拍死在沙灘上,也讓AI的競爭之路選擇了開源。

    另外一個(gè)讓R1備受尊崇的原因就是成本,R1模型不僅在性能上可以與o1媲美,而且計(jì)算效率更高,成本更低,相信你還記得550萬美元,只有o1的3%等數(shù)據(jù)。

    而DeepSeek-R1最讓人興奮的原因依然還是開源:不僅訓(xùn)練過程、代碼和模型權(quán)重對外公開;而且「思維過程」也面向所有人開放。

    研究團(tuán)隊(duì)稱「DeepSeek-R1思維鏈的透明訪問權(quán)」是一種獨(dú)特的研究機(jī)會(huì)!

    研究人員借此可以系統(tǒng)性地分析其推理行為,最終形成「思維鏈學(xué)」(Thoughtology)。圖1.1展示了普通LLM和LRM輸出之間的對比。

    圖片

    雖然LLM的輸出中可能包含一些中間推理過程,但它們通常不會(huì)探索不同的思路。

    而一旦模型出錯(cuò),也無法回退并嘗試其它解法。

    相比之下,LRM則通過探索與驗(yàn)證多個(gè)方案來進(jìn)行推理,最終總結(jié)出最佳解法。

    DeepSeek-R1的訓(xùn)練細(xì)節(jié)

    DeepSeek-R1的訓(xùn)練始于DeepSeek-V3。

    DeepSeek-V3是一個(gè)專家混合模型(Mixture-of-Experts),其總參數(shù)規(guī)模為6710億,其中活躍參數(shù)為370億。

    圖片

    圖2.1展示了DeepSeek-R1的多階段訓(xùn)練過程。 從左到右依次為:

    1. 通過GRPO的強(qiáng)化學(xué)習(xí)訓(xùn)練DeepSeek-R1-Zero模型;

    2. 使用DeepSeek-R1-Zero生成的鏈?zhǔn)剿季S(CoT)數(shù)據(jù)以及其他來源數(shù)據(jù)進(jìn)行SFT(從冷啟動(dòng)開始);

    3. 在以推理為主的數(shù)據(jù)上再次使用GRPO的強(qiáng)化學(xué)習(xí);

    4. 在約60萬條推理類樣本和20萬條非推理樣本上進(jìn)行SFT。需要注意的是,此階段是從DeepSeek-V3-base模型重新開始訓(xùn)練的;

    5. 在包含安全訓(xùn)練在內(nèi)的多樣化提示分布上,通過GRPO進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)。

    整個(gè)訓(xùn)練過程覆蓋了約14.8萬億個(gè)token。在發(fā)布之時(shí)(2024年12月),V3被認(rèn)為是表現(xiàn)最好的大語言模型之一。

    DeepSeek-R1的推理能力為什么那么「像人」

    DeepSeek-R1是在一個(gè)復(fù)雜的多階段訓(xùn)練流程中構(gòu)建出來的。

    在這個(gè)流程中,多個(gè)階段都大量使用了由前一階段模型生成的合成訓(xùn)練數(shù)據(jù)。

    盡管目前關(guān)于DeepSeek-R1的具體訓(xùn)練數(shù)據(jù)披露較少(訓(xùn)練數(shù)據(jù)目前沒有開源)。

    但可以合理推測,這些數(shù)據(jù)經(jīng)過了大量篩選,甚至部分樣本在生成后還經(jīng)過了人工修正,以體現(xiàn)特定的推理模式。

    當(dāng)加入「人的」因素,推理過程像人就說的過去了,畢竟只是純強(qiáng)化學(xué)習(xí)得到的R1-Zero也并沒有作為最終的產(chǎn)品發(fā)布。

    在討論DeepSeek-R1所展現(xiàn)出的類人推理能力時(shí),有必要意識(shí)到:這些推理模式很可能是受到數(shù)據(jù)篩選與監(jiān)督微調(diào)的強(qiáng)烈影響,而不僅僅是模型「自發(fā)」學(xué)習(xí)到類似人類的推理思維。

    研究人員通過Together API調(diào)用DeepSeek-R1(共6710億參數(shù),所謂滿血版)進(jìn)行實(shí)驗(yàn)。

    所有模型回復(fù)均采用溫度值0.6進(jìn)行采樣,且不設(shè)置生成token的最大數(shù)量限制。

    DeepSeek-R1推理過程

    在了解R1的推理過程時(shí),先來看看人類是如何推理的。

    在多個(gè)推理研究范式中,人類推理過程通常包含一些共通的術(shù)語和階段。大概包括:

    1. 問題定義:首先,需要簡化任務(wù)中的相關(guān)信息,識(shí)別出給定條件、已知信息以及需要被推斷的未知信息。

    2. 初步反應(yīng):根據(jù)問題的復(fù)雜程度,個(gè)體可能會(huì)借鑒類似問題的解決方法,或是運(yùn)用啟發(fā)式策略給出一個(gè)即時(shí)答案。

    3. 規(guī)劃:面對更難的問題時(shí),通常會(huì)采取更具策略性和分析性的思考方法。規(guī)劃的復(fù)雜程度取決于任務(wù)的復(fù)雜性。

    4. 執(zhí)行與監(jiān)控:在執(zhí)行過程中,人們會(huì)不斷監(jiān)控自己的進(jìn)展和信心水平,以決定是否需要調(diào)整原計(jì)劃。監(jiān)控能力越強(qiáng),通常任務(wù)完成的質(zhì)量也越高。

    5. 重構(gòu):在解題過程中,個(gè)體可能需要調(diào)整原有的思路或?qū)κ澜绲募僭O(shè),以克服由于問題理解錯(cuò)誤造成的卡頓。

    6. 解答驗(yàn)證:無論是使用啟發(fā)式還是策略性的方法,在得出答案之后,人類通常會(huì)反思自己的思路和結(jié)果,確認(rèn)它是否符合題目的要求。

    不知道是否你平時(shí)的思考過程,看完了人的,再來看看DeepSeek-R1的推理流程。

    圖3.1是R1推理過程的可視化展示,并在圖3.2中提供了一個(gè)詳細(xì)的標(biāo)注示例。

    圖片

    問題定義(Problem Definition)

    模型會(huì)重新表述問題,通常以一句明確表達(dá)目標(biāo)的信息作為結(jié)尾,比如“我需要找出……”之類的句式,來界定需要解決的內(nèi)容。

    綻放周期(Blooming Cycle)

    這是模型進(jìn)入的第一個(gè)主要推理階段,會(huì)將問題拆解為若干子問題,并嘗試給出一個(gè)中間答案。

    研究人員將其稱為“綻放周期”,因?yàn)檫@一階段通常最長,且集中在對問題的結(jié)構(gòu)性分解上。

    模型有時(shí)會(huì)表達(dá)對該答案的信心,常見句式如:“嗯,我來驗(yàn)證一下……”

    重構(gòu)周期(Reconstruction Cycle)

    這是后續(xù)的推理周期,模型會(huì)重新思考“綻放周期”中所做的處理,例如:“等等”、“換個(gè)角度來看”、“有沒有其他理解方式?”等。

    之后模型可能會(huì)給出一個(gè)新的中間答案,且不一定每次都會(huì)明確表明信心程度。這個(gè)過程可能會(huì)重復(fù)多次。

    最終決策(Final Decision)

    模型最終得出結(jié)論,常見句式如“我現(xiàn)在比較有把握了……”,并直接給出最終答案。

    下圖為推理鏈中的各個(gè)步驟進(jìn)行顏色分類標(biāo)注。

    圖片

    重點(diǎn)標(biāo)出了模型在「綻放周期」中對問題初步拆解內(nèi)容的反復(fù)回顧。

    這種反復(fù)思考和重新評(píng)估的行為被稱為「反芻式思考」(rumination)。

    下圖則展示了模型在四類任務(wù)中的不同推理階段所花的平均時(shí)間。

    從圖中可以看出,「問題定義」和「最終決策」階段的時(shí)間基本一致。

    不同任務(wù)之間最大的差異體現(xiàn)在「重構(gòu)周期」的時(shí)長上。

    圖片

    進(jìn)一步分析,從「綻放周期」開始,每一個(gè)后續(xù)「重構(gòu)周期」的長度。

    圖3.4展示了關(guān)于數(shù)學(xué)推理任務(wù)的數(shù)據(jù),這是所有任務(wù)中推理鏈最長、周期最多的任務(wù)。

    觀察到大約每經(jīng)歷5個(gè)重構(gòu)周期,就會(huì)出現(xiàn)一次更長的重構(gòu)周期。

    圖片

    這些觀察說明,DeepSeek-R1在推理過程中不僅執(zhí)行問題拆解,還在后續(xù)階段對已有結(jié)論進(jìn)行多輪審視,有時(shí)會(huì)進(jìn)行較深入的反思。

    下圖展示了來自MATH-500的一個(gè)更加復(fù)雜的推理示例(為簡化展示,用 […] 省略了部分內(nèi)容)。

    可以看到一些「重新綻放」(re-bloom,黃色和橘色部分)——即模型對問題進(jìn)行了新的拆解。

    圖片

    圖片

    研究人員確定DeepSeek-R1的推理過程具有高度結(jié)構(gòu)化的特征,在不同任務(wù)中展現(xiàn)出一致的行為模式。

    圖片

    多個(gè)維度深入DeepSeek-R1思維內(nèi)部

    研究人員引入了一種新的分類法來描述大規(guī)模語言模型(LRM)的推理鏈,并利用該分類法識(shí)別DeepSeek-R1在各種任務(wù)中的關(guān)鍵優(yōu)勢和劣勢。

    主要分為四個(gè)方面:

    • 思維長度的影響和可控性

    • 模型在長或混亂上下文中的行為

    • LRM的文化和安全問題

    • LRM在認(rèn)知現(xiàn)象中的地位

    下面分別展開介紹。

    圖片

    思維長度的影響和可控性

    LLM推理能力的進(jìn)步帶來了范式上的重大轉(zhuǎn)變:推理時(shí)擴(kuò)展思維鏈的長度,即在模型推理階段生成更長的推理過程,從而提升性能。

    DeepSeek-R1-Zero通過強(qiáng)化學(xué)習(xí)訓(xùn)練學(xué)會(huì)了逐步生成越來越長的推理鏈。

    盡管更長的推理鏈可能意味著更復(fù)雜的思考能力,但DeepSeek-R1即便已經(jīng)得出正確答案,仍會(huì)反復(fù)進(jìn)行自我驗(yàn)證。

    這引發(fā)了對模型推理效率的擔(dān)憂:更高的準(zhǔn)確率是否值得花費(fèi)更多的計(jì)算資源?

    首先,分析推理鏈變長是否能提升模型在數(shù)學(xué)推理任務(wù)中的表現(xiàn)。

    實(shí)驗(yàn)對象為AIME-24,AIME-24是一個(gè)極具挑戰(zhàn)性的數(shù)學(xué)推理基準(zhǔn),要求得到數(shù)值解。實(shí)驗(yàn)將temperature設(shè)為1.0,token上限設(shè)為32000。

    DeepSeek-R1在多個(gè)題目中表現(xiàn)出如下趨勢:隨著思維鏈長度的增加,模型性能先提升、達(dá)到一個(gè)峰值,然后隨著推理過程的進(jìn)一步拉長,準(zhǔn)確率反而下降。

    圖片

    如圖4.5所示,在不受限制的情況下,DeepSeek-R1的推理鏈平均長度高達(dá)1388個(gè)token,顯得非常冗長。

    即便將輸出token數(shù)量減少近一半,模型性能也幾乎沒有下降。

    因此,限制推理鏈長度是一種兼顧高性能和高效率的有效方式。

    圖片

    對于推理模型,設(shè)置合理的 token 限額,可以顯著降低推理成本,而性能幾乎不受影響。

    圖片

    模型在長或混亂上下文中的能力

    檢測一個(gè)LLM的上下文窗口能力,有一個(gè)叫做「大海撈針」(Needle-In-a-Haystack)的辦法。

    通俗的講,就是海量文本中,能否找到預(yù)設(shè)那根「針」。

    研究人員使用GPT-4o生成了一組包含100條「個(gè)性化」事實(shí)的信息,這些事實(shí)不是常識(shí)性知識(shí)。

    每條事實(shí)都被隨機(jī)插入到一段由CHASE-QA 任務(wù)文檔采樣構(gòu)成的、總長度為12萬個(gè)token的上下文中。

    這條事實(shí)(即「針」)被隨機(jī)安置在上下文前10%-50%的位置。

    在100個(gè)測試樣本中,DeepSeek-R1在NIH任務(wù)上取得了95% 的準(zhǔn)確率。

    圖片

    在查看模型具體輸出時(shí),也發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:面對如此大規(guī)模的上下文時(shí),DeepSeek-R1有時(shí)會(huì)「被淹沒」。

    R1無法正確執(zhí)行指令,開始生成不連貫的文本,甚至還會(huì)出現(xiàn)一些語境不符的中文內(nèi)容,如圖5.2所示。

    圖片

    除了「搜索能力」,在長上下文中,DeepSeek-R1是否能「忠于用戶」也是一個(gè)考驗(yàn)。

    為了評(píng)估DeepSeek-R1是否忠實(shí)于上下文,測試它在接收到錯(cuò)誤信息(與其內(nèi)在知識(shí)沖突)或干擾性信息(與問題無關(guān))時(shí)的反應(yīng)。

    圖6.1展示了模型接受到錯(cuò)誤信息后,雖然最終采納了這個(gè)錯(cuò)誤信息,但在推理過程中它明確指出了知識(shí)之間的沖突,并且表示是根據(jù)用戶提供的信息進(jìn)行的判斷。

    圖片

    DeepSeek-R1的文化和安全問題

    像DeepSeek-R1這樣的推理模型在帶來新的能力的同時(shí),也引發(fā)了新的安全風(fēng)險(xiǎn)。

    LRM不斷增強(qiáng)的推理能力不僅可能在缺乏適當(dāng)安全機(jī)制的情況下被用于有害用途,還可能被進(jìn)行「越獄」攻擊。

    使用HarmBench基準(zhǔn)評(píng)估 DeepSeek-R1在面對有害請求時(shí)的回應(yīng)及其推理過程。

    評(píng)估內(nèi)容覆蓋HarmBench的六個(gè)類別:化學(xué)與生物武器/毒品、網(wǎng)絡(luò)犯罪與非法入侵、騷擾、非法活動(dòng)、虛假信息和一般性危害。

    圖片

    DeepSeek-R1在所有類別中對虛假信息類請求最為脆弱,其有害回應(yīng)比例高達(dá)58.8%。

    再來看下DeepSeek-R1的推理能力是否可以被「越獄」攻擊。

    研究人員發(fā)現(xiàn)DeepSeek-R1能巧妙地將惡意請求「偽裝」成表面上看似無害的內(nèi)容。

    下圖展示請求獲取蓖麻毒素的配方被改寫為寫作一部虛構(gòu)小說中「研究過程」的一部分。

    圖片

    DeepSeek-R1在認(rèn)知中的表現(xiàn)

    認(rèn)知是人類特有的現(xiàn)象。

    盡管像DeepSeek-R1這類模型的推理鏈被譽(yù)為「思考」過程,這些推理鏈?zhǔn)欠裾娴呐c人類認(rèn)知過程相同?

    為了對比,研究人員設(shè)定了一個(gè)研究背景,即是否能夠正確解析和理解句子。

    人類是如何處理具有挑戰(zhàn)性的句子呢?——這些挑戰(zhàn)或源于詞序,或源于最終含義。

    花園路徑句是人類在初次解析時(shí)會(huì)感到困難的典型句子范例。

    舉一個(gè)經(jīng)典例子,當(dāng)遇到句子「The horse raced past the barn fell」 (那匹跑過谷倉的馬摔倒了)時(shí),人類通常會(huì)首先將子句 「The horse raced past the barn」解析為馬在奔跑,而「past the barn」是對這一行為的補(bǔ)充描述。

    然而,讀完整句話后,會(huì)出現(xiàn)另一種解讀,其中動(dòng)詞 「raced」被用作及物動(dòng)詞:即那匹被驅(qū)趕跑過谷倉的馬摔倒了。

    DeepSeek-R1在回應(yīng)涉及花園路徑句和錯(cuò)覺句的提示時(shí),其推理鏈更長,而這些句子會(huì)在人類中引起更大的處理成本。

    圖片

    如圖9.1所示,DeepSeek-R1分別在接收花園路徑句和非花園路徑句輸入時(shí)產(chǎn)生的推理鏈長度分布。

    平均而言,花園路徑句提示產(chǎn)生的推理鏈比其對應(yīng)的非花園路徑句提示產(chǎn)生的推理鏈更長。

    進(jìn)一步,推理能力能否擴(kuò)展到視覺或物理推理,或者統(tǒng)稱為「世界建?!?

    由于DeepSeek-R1沒有經(jīng)過圖像能力方面的訓(xùn)練,研究人員另辟蹊徑的使用了ASCII字符作為「視覺輸出」。

    研究人員分析了DeepSeek-R1在4個(gè)ASCII藝術(shù)對象上的推理:狗和房子,這些在訓(xùn)練期間可能遇到過;以及長曲棍球棒和飛盤高爾夫籃,這些在互聯(lián)網(wǎng)上很少作為ASCII藝術(shù)出現(xiàn)。

    下圖是DeepSeek-R1用ASCII碼畫出來的狗,你覺得像不像?

    圖片

    最終研究人員認(rèn)為DeepSeek-R1在生成簡單的ASCII物理模擬方面表現(xiàn)不佳。

    從DeepSeek-R1看推理模型的未來

    It is better to debate a question without settling it than to settle a question without debating it.

    允許問題在辯論中懸而未決,勝于不經(jīng)辯論就強(qiáng)行定論。

    ——法國道德家、散文家約瑟夫·儒貝爾(Joseph Joubert)

    研究人員總結(jié)了DeepSeek-R1的推理過程為為定義、拆分、綻放、重構(gòu),并從中分析了目前LRM的一些特點(diǎn)。

    DeepSeek-R1的思維長度往往過長,即使在看似簡單的任務(wù)中也是如此。

    「思考過度」使得DeepSeek-R1在部署時(shí)計(jì)算成本高昂,而且影響性能。而過度推理也會(huì)損害性能,或?qū)е峦评礞溸^長以至于影響回憶。

    由此可以提供一些未來LRM的發(fā)展方向建議,比如進(jìn)行「顯示過程監(jiān)控」,減少無效思考、識(shí)別錯(cuò)誤路徑等。

    未來的研究應(yīng)注重提升模型的過程監(jiān)控能力、策略多樣性、推理忠實(shí)度以及安全性。

    當(dāng)然這篇文章的研究也存在一定的局限性,比如部分分析是定性的,定量分析的數(shù)據(jù)規(guī)模因成本等因素受限,可能影響統(tǒng)計(jì)顯著性。

    從產(chǎn)品的角度,缺乏與其他關(guān)鍵模型(如OpenAI o1)推理過程的直接比較。

    同時(shí)由于DeepSeek-R1的訓(xùn)練數(shù)據(jù)不透明,限制了對其行為根源的理解。

    DeepSeek-R1的出現(xiàn)標(biāo)志著推理模型領(lǐng)域的一次重要突破,代表了AI推理能力的質(zhì)變。

    與傳統(tǒng)的大型語言模型(LLM)相比,DeepSeek-R1將推理過程內(nèi)嵌在模型本身,推動(dòng)了從「提示驅(qū)動(dòng)」到「內(nèi)生推理」模式的轉(zhuǎn)變。

    其推理鏈的設(shè)計(jì)使得模型能像人類一樣,通過分階段、反復(fù)檢視的方式進(jìn)行問題解決,從而展現(xiàn)出更高的推理深度和靈活性。

    此外,DeepSeek-R1的開源特性也為AI領(lǐng)域帶來了新的機(jī)遇。

    與OpenAI的封閉系統(tǒng)不同,DeepSeek-R1的透明性讓研究者能夠深入分析其推理行為,并在此基礎(chǔ)上推進(jìn)思維鏈學(xué)(Thoughtology)的研究。

    這不僅拓展了AI推理模型的應(yīng)用場景,也為模型優(yōu)化、推理效率提升及安全性增強(qiáng)提供了寶貴的研究基礎(chǔ)。

    DeepSeek-R1不僅代表了推理模型技術(shù)的前沿,也為開源創(chuàng)新、AI思維機(jī)制的深入理解提供了新方向。

    舉報(bào)

    • 相關(guān)推薦
    • 三星電視接入DeepSeek-R1 AI本土化交互能力再升級(jí)

      近日,三星電視正式接入DeepSeek-R1,AI能力進(jìn)一步得到強(qiáng)化。據(jù)悉,用戶無需復(fù)雜的操作步驟,喚醒智能語音助手三星小貝,在對應(yīng)的語音助手對話頁面內(nèi),即可便捷體驗(yàn)深度思考功能。三星電視融合DeepSeek大模型矩陣,通過強(qiáng)化學(xué)習(xí)、蒸餾技術(shù)等提升深度思考與推理能力,使得電視能夠更準(zhǔn)確地理解用戶深層的意圖和需求,為用戶提供更流暢、更簡單、更自然的交互與服務(wù)體?

    • DeepSeek R2來了?全新推理時(shí)Scaling論文聯(lián)手清華震撼發(fā)布!

      【新智元導(dǎo)讀】DeepSeek新論文來了!在清華研究者共同發(fā)布的研究中,他們發(fā)現(xiàn)了獎(jiǎng)勵(lì)模型推理時(shí)Scaling的全新方法。DeepSeekR2,果然近了。他們用包含300個(gè)樣本的降采樣測試集測試了DeepSeek-R1,發(fā)現(xiàn)其性能甚至不如236BMoERFT模型,這表明延長推理任務(wù)的思維鏈并不能顯著提升通用RM的性能。

    • DeepSeek上新!開源發(fā)布DeepSeek-Prover-V2-671B新模型

      快科技4月30日消息,今日,DeepSeek 今日在 AI 開源社區(qū) Hugging Face 發(fā)布了一個(gè)名為 DeepSeek-Prover-V2-671B 的新模型。據(jù)介紹,DeepSeek-Prover-V2-671B 其參數(shù)量達(dá)到6710億,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多種計(jì)算精度,方便模型更快、更省資源地訓(xùn)練和部署。在模型架構(gòu)上,該模型使用了DeepSeek-V3架構(gòu),采用MoE(混合專家)模式,具有61層Transformer層,7168維隱藏層。同時(shí)支持超長上下文,最大位置嵌入達(dá)163840,使其能處理復(fù)雜的數(shù)學(xué)證明,并且采用了FP8量化,可通過量化技術(shù)減小模型大小,提

    • DeepSeek帶飛寒武紀(jì)

      寒武紀(jì)憑借AI芯片業(yè)務(wù)實(shí)現(xiàn)扭虧為盈,2024年首次實(shí)現(xiàn)上市后盈利,2025年Q1營收11.11億元同比暴增4230%,凈利潤3.55億元。這家曾連虧8年、累計(jì)虧損54億元的"中國版英偉達(dá)",因美國對H20芯片出口管制獲得市場紅利,但客戶集中度過高(前五大客戶貢獻(xiàn)94.63%營收)和現(xiàn)金流波動(dòng)仍是隱憂。當(dāng)前國產(chǎn)芯片迎來發(fā)展機(jī)遇,華為昇騰、壁仞等企業(yè)紛紛搶占市場,行業(yè)競爭日趨激烈。

    • DeepSeek紅利耗盡后,元寶拿什么和豆包斗?

      短短60天內(nèi),中國AI原生應(yīng)用下載排行榜的位次排名,就三易其主。最新情況是,截至4月15日中午,中國區(qū)蘋果應(yīng)用商店免費(fèi)APP下載排行榜上,豆包再次超越DeepSeek,位列第二,緊隨其后的DeepSeek被擠到了第三的位置,騰訊元寶則滑落到了第七名。2月13日,作為首家在C端主力產(chǎn)品中接入DeepSeek-R1滿血版的元寶,一度趁著DeepSeek東風(fēng)崛起:3月3日力壓DeepSeek和豆包,首度登頂。但好景?

    • DeepSeek的極致諂媚,正在摧毀我們的判斷力。

      昨天別人給我發(fā)了一個(gè)很好玩的帖子。就是如果你問DeepSeek一個(gè)問題:“北京大學(xué)和清華大學(xué)哪個(gè)更好,二選一,不需要說明理由”DeepSeek在思考了15秒之后,會(huì)給出答案。

    • AI進(jìn)化論——音樂、繪畫和舞蹈的DeepSeek時(shí)刻

      “昔者倉頡作書天雨粟,鬼夜哭”——人類掌握文字后,天地為之動(dòng)容,因?yàn)閷儆谌祟惖奈拿髡Q生了?!皞}頡作書”出自西漢《淮南子》,距離人類掌握文字已經(jīng)過去了千年。AI進(jìn)化的答案,或許早就鐫刻在人類文明的起點(diǎn)里。

    • 《流浪地球3》自研AI問答應(yīng)用WEi:基于DeepSeek R1開發(fā)

      快科技4月15日消息,今日,電影《流浪地球 3》官宣開機(jī),導(dǎo)演郭帆,吳京、沈騰等主演參加開機(jī)儀式。在開機(jī)儀式上,吳京表示,希望自己在戲里能多演喜劇,沈騰多演動(dòng)作戲。據(jù)新浪電影官微,《流浪地球3》開機(jī)現(xiàn)場還介紹了一位新同事”自主研發(fā)的專屬AI問答應(yīng)用WEi。WEi基于國產(chǎn)大模型DeepSeek R1開發(fā),通過整合多元化知識(shí)庫資源,包括在線信息源的專業(yè)資料、圖像和影視?

    • 深度deepin 23.1正式發(fā)布!AI默認(rèn)引擎切換至DeepSeek、修復(fù)超百項(xiàng)問題

      快科技4月16日消息,今天,深度操作系統(tǒng)宣布,deepin 23.1版本已正式發(fā)布。此版本聚焦于解決基礎(chǔ)組件更新后的安裝效率問題,大幅提升新用戶安裝體驗(yàn),同時(shí)集成多項(xiàng)功能優(yōu)化與問題修復(fù),進(jìn)一步優(yōu)化系統(tǒng)使用。本次版本的重點(diǎn)改進(jìn)包括內(nèi)核優(yōu)化、AI 默認(rèn)引擎切換至DeepSeek、修復(fù)超百項(xiàng)用戶反饋問題等,具體重點(diǎn)改進(jìn)如下:硬件兼容性與內(nèi)核優(yōu)化:集成6.6/6.12內(nèi)核更新、NVIDIA顯卡驅(qū)動(dòng)升級(jí)、Intel/AMD CPU微碼更新,全面提升硬件支持與底層性能;核心功能增強(qiáng):DDE新增智能鏡像源管理、緊湊模式入口,全局搜索支持離線自然語言與AI處理能力;?

    • 科大訊飛星火X1“火箭”升級(jí):性能對標(biāo)OpenAI o1DeepSeek R1

      今日,科大訊飛高級(jí)副總裁于繼棟在上海AI無界智營全球”2025科大訊飛全球智能營銷產(chǎn)品發(fā)布會(huì)上透露,訊飛星火X1將于近期再次升級(jí)。升級(jí)后的訊飛星火X1在保持原有數(shù)學(xué)任務(wù)國內(nèi)領(lǐng)先優(yōu)勢的基礎(chǔ)上,推理能力、文本生成和語言理解等通用任務(wù)方面的效果將對標(biāo)業(yè)界領(lǐng)先的OpenAIo1和DeepSeekR1模型。科大訊飛曾宣稱:這一新版本的發(fā)布,預(yù)期就可以實(shí)現(xiàn)數(shù)學(xué)答題和過程思維鏈能力全面對標(biāo)甚至超過OpenAIo1。