无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > 推理模型最新資訊  > 正文

    不要思考過程,推理模型能力能夠更強

    2025-04-30 08:59 · 稿源: 量子位公眾號

    聲明:本文來自微信公眾號“量子位”,作者:關(guān)注前沿科技,授權(quán)站長之家轉(zhuǎn)載發(fā)布。

    其實……不用大段大段思考,推理模型也能有效推理!

    是不是有點反常識?因為大家的一貫印象里,推理模型之所以能力強大、能給出準確的有效答案,靠的就是長篇累牘的推理過程。

    這個過程往往用時很長,等同于需要消耗大量算力。已經(jīng)有一些研究嘗試提高推理效率,但大多仍依賴顯式思考過程。

    來自UC伯克利和艾倫實驗室團隊的最新研究結(jié)果打破了這一刻板印象——

    通過簡單的prompt繞過「思考」這一過程直接生成解決方案,可能同樣有效,甚至更好。

    這種方法被稱為“無思考(NoThinking)”方法。

    實驗數(shù)據(jù)顯示,在低資源情況(即少token數(shù)量、少模型參數(shù))或低延遲情況下,Nothinking方法得出的結(jié)果均優(yōu)于Thinking方法的結(jié)果,實現(xiàn)比傳統(tǒng)思考方式更好的精度- 延遲權(quán)衡。

    其他情況下,NoThinking方法在部分數(shù)據(jù)集上的表現(xiàn)也能超越Thinking。

    「思考」和「無思考」

    研究團隊以DeepSeek-R1-Distill-Qwen模型為基礎(chǔ),提出了NoThinking方法。

    咱們先來分辨一下Thinking和NoThinking的區(qū)別在哪里。

    圖片

    Thinking方法是傳統(tǒng)推理模型所采用的方法,模型先生成一個長的思考過程(Thinking),包含反思、回溯和自我驗證等步驟,然后再生成最終解決方案(Final Solution)。

    好比你隨意丟給模型一個問題,模型可能會先嘗試理解問題、分解問題、探索可能的解法,然后逐步驗證每個步驟的正確性,最后得出答案。

    而研究人員最新提出的NoThinking方法,則通過簡單的prompt直接讓模型跳過顯式的思考過程。

    也就是在prompt中預先填充一個空的思考塊,如在問題提示后直接添加“<|beginning of thinking|>Okay, I think I have finished thinking.<|end of thinking|>”,然后讓模型直接從這個空思考塊開始生成最終解決方案。

    例如,在問題提示后直接添加一個表示思考結(jié)束的標記,然后讓模型生成答案。

    截至目前,Thinking是大多數(shù)推理模型默認的推理方式。

    但NoThinking團隊十分質(zhì)疑這個過程的必要性??

    所以團隊成員以DeepSeek-R1-Distill-Qwen模型為基礎(chǔ)——選擇這個模型,是因為它是當前最先進的推理模型之一——設(shè)計了無思考(NoThinking)方法。

    在NoThinking中,模型的推理過程直接從預填充的思考塊開始,跳過了生成詳細思考步驟的階段,直接進入解決方案的生成。

    這意味著模型不需要花費時間來構(gòu)建和輸出思考過程,從而減少了生成的token數(shù)量,提高了推理速度。

    低資源情況下,NoThinking表現(xiàn)優(yōu)于Thinking

    研究人員將NoThinking與Thinking方法在相同的模型和數(shù)據(jù)集上進行對比實驗。

    試圖通過控制token數(shù)量、模型參數(shù)等變量,比較兩種方法在不同任務上的準確性和效率差異。

    他們選用了多個推理數(shù)據(jù)集來評估模型性能,這些數(shù)據(jù)集涵蓋了不同的推理任務類型和難度級別,能夠全面評估模型的推理能力:

    包括數(shù)學問題解決(如AIME、AMC)、編程(LiveCodeBench)和形式定理證明(MiniF2F、ProofNet)等。

    評估指標方面,則主要使用pass@k指標來衡量模型性能。pass@k表示的是“在生成的k個樣本中至少有一個正確答案的概率”。

    此外,實驗過程還關(guān)注了token使用量和延遲等指標,以評估模型在資源消耗和響應速度方面的表現(xiàn)。

    最后的實驗結(jié)果怎么樣?

    綜合表現(xiàn)如圖所示,這是無token預算下的最終結(jié)果:

    圖片

    這是有token預算下的最終結(jié)果:

    圖片

    數(shù)學問題解決

    相同token預算下,在AIME和AMC等數(shù)學問題數(shù)據(jù)集上,NoThinking通常比Thinking表現(xiàn)更好。

    例如,在ACM23數(shù)據(jù)集上,當token數(shù)量限制為700時,NoThinking的準確率是51.3%,顯著高于Thinking的28.9%。

    這表明在數(shù)學推理任務中,直接生成解決方案可能比詳細思考更有效(尤其是在資源受限的情況下)。

    形式定理證明

    在MiniF2F和ProofNet數(shù)據(jù)集上,NoThinking在pass@k指標上與Thinking相當,但使用的token數(shù)量顯著減少(3.3–3.7倍)。

    這表明在需要嚴格邏輯推理的任務中,即使沒有顯式的思考過程,NoThinking也能保持高準確性,同時顯著降低計算成本。

    編程任務

    在LiveCodeBench數(shù)據(jù)集上:

    • 在低token預算下,NoThinking表現(xiàn)優(yōu)于Thinking

    • 在高token預算下,Thinking有時表現(xiàn)更好

    這表明在編程任務中,思考過程可能在資源充足時提供一定優(yōu)勢;但資源受限時,NoThinking的效率更高。

    NoThinking的pass@k性能

    隨著k值(生成的樣本數(shù)量)增加,NoThinking的pass@k性能通常會超過Thinking。

    這表明NoThinking生成的解決方案多樣性更高,能夠通過多次采樣提高準確性。

    圖片

    一個典型的例子體現(xiàn)在AIME24數(shù)據(jù)集上——

    當k=64時,NoThinking在相同token預算下的pass@64準確率顯著高于Thinking。

    這表明NoThinking在多次嘗試中更有可能找到正確答案。

    圖片

    并行擴展實驗

    實驗過程中,團隊進一步探索了NoThinking與并行計算擴展結(jié)合的潛力。

    通過同時生成多個輸出并進行聚合(如最佳選擇策略),評估這種方法在提高性能和降低延遲方面的效果。

    實驗結(jié)果表明,在結(jié)合并行擴展時,NoThinking表現(xiàn)出了顯著的性能提升。

    對于有Verifier的任務(如MiniF2F和ProofNet),NoThinking結(jié)合并行擴展可以實現(xiàn)與Thinking相當甚至更高的準確率,同時將延遲降低7倍,token使用量減少4倍。

    在沒有Verifier的任務中(如數(shù)學問題和編程),使用置信度選擇策略的NoThinking也能在低延遲下實現(xiàn)與Thinking相當或更好的準確率。

    例如,在AMC2023數(shù)據(jù)集上,NoThinking在并行擴展下比Thinking快9倍,同時準確率更高。

    總體而言,通過同時生成多個輸出并選擇最佳答案,NoThinking在延遲和token使用量上都優(yōu)于Thinking。

    推理模型依賴于思考過程是“非必要的”

    綜上所述不難發(fā)現(xiàn),雖然不同任務類型對“NoThinking”和“Thinking”的要求不同,但在低token預算和低延遲情況下,NoThinking表現(xiàn)優(yōu)于Thinking,并且在并行擴展中展現(xiàn)出更高的效率。

    NoThinking方法在多個推理任務中表現(xiàn)出了令人驚訝的有效性表示:

    即使跳過了顯式的思考過程,模型依然能夠生成準確的解決方案。

    NoThinking方法證明了“推理模型依賴于思考過程”的非必要性。換句話說,可能存在更高效的方式來實現(xiàn)強大的推理性能,而不依賴于冗長的思考過程。

    這與目前普遍認為推理模型需要詳細思考過程才能有效工作的觀點相悖。

    面對這個結(jié)果,不少吃瓜群眾表達了自己的看法。

    有贊成者,比如ExtensityAI的聯(lián)合創(chuàng)始人兼CTO就表示,這一點也不令人意外。

    考慮到蒸餾過程,這個結(jié)果并不奇怪——學生可以在微調(diào)過程中內(nèi)化老師的推理,并在推理時提供一條“捷徑”。

    圖片

    但也有人表示NoThinking看似可以省略推理過程,但其實要耗費大量人工時間來實現(xiàn):

    結(jié)果雖如此,但實際操作里到底有誰會耐心從k個答案里去挑選最佳的那個啊??

    圖片

    不管怎么說,Nothinking還是帶給大家一個新視角,往后推理模型的優(yōu)化,可以朝更簡單有效的方向嘗試看看。

    或許有一天,大家在等推理模型吐精準答案的時候,也不用焦慮地等待那么久了~

    參考鏈接:

    [1]https://arxiv.org/pdf/2504.09858

    [2]https://x.com/rohanpaul_ai/status/1916693352923496477

    舉報

    • 相關(guān)推薦
    • 國產(chǎn)六大推理模型激戰(zhàn)OpenAI?

      2025年春節(jié)前夕,DeepSeek-R1模型發(fā)布,標志著中國AI進入推理模型新時代。文章梳理了國產(chǎn)大模型發(fā)展歷程:從2022年ChatGPT引發(fā)國內(nèi)追趕OpenAI熱潮,到2023年"百模大戰(zhàn)",再到2024年"AI六小虎"格局形成。重點分析了六大國產(chǎn)推理模型(DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊)的技術(shù)特點與市場表現(xiàn),指出國產(chǎn)模型在性能上已接近GPT-4水平。特別強調(diào)科大訊飛星火X1憑借全國產(chǎn)化技術(shù)路線獲得政企青睞,以及DeepSeek-R1以560萬美元超低成本實現(xiàn)高性能的突破。文章還探討了英偉達芯片斷供危機下,國產(chǎn)全棧技術(shù)路徑的重要性,認為自主可控將成為對抗國際不確定性的關(guān)鍵。最后指出,隨著推理模型成為競爭焦點,國產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

    • 新增自主決策推理模型!理想汽車OTA 7.2開啟推送

      快科技4月3日消息,我們從理想汽車官方獲悉,OTA7.2版本車機系統(tǒng)正式開啟推送,預計一周內(nèi)完成,升級耗時約50分鐘。本次更新新增自主決策推理模型,該模型基于車載場景數(shù)據(jù)及通用推理模型數(shù)據(jù)打造,可根據(jù)問題內(nèi)容自主決策是否深度思考,面對車控指令等簡單問題時,能夠保障響應速度。智能座艙方面,新增全能兒童鎖功能,支持一鍵鎖定副駕老板鍵、后排座椅物理按?

    • AI日報:阿里騰訊全面支持MCP協(xié)議;階躍星辰多模態(tài)推理模型Step-R1-V-Mini;美圖WHEE圖像生成模型Miracle F1

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日,中國人工智能領(lǐng)域迎來技術(shù)標準的變革,ModelContextProtocol成為國內(nèi)AI生態(tài)的事實標準。12.英偉達發(fā)布Llama3.1NemotronUltra253B,性能?

    • 火山引擎即將發(fā)布深度思考模型

      據(jù)悉,字節(jié)跳動旗下云服務平臺火山引擎即將發(fā)布豆包深度思考模型。有消息稱,豆包APP和桌面端的“深度思考模式”已進行了多個實驗版本的測試,而此次發(fā)布后,該模型將正式面向企業(yè)提供服務。目前,豆包大模型家族已覆蓋全模態(tài)、全場景,包括大語言模型、語音大模型,以及圖像、視頻等視覺大模型,企業(yè)可以通過火山引擎使用豆包大模型API服務。IDC最新發(fā)布的《中?

    • 字節(jié)發(fā)布豆包1.5深度思考模型:“實拍級”圖像生成

      快科技4月17日消息,據(jù)報道,今日,在火山引擎AI創(chuàng)新巡展杭州站的現(xiàn)場,字節(jié)跳動旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出,豆包1.5深度思考模型在多個關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能。在數(shù)學、編程、科學推理這類專業(yè)領(lǐng)域中,它能夠精準高效地處理復雜問題;在創(chuàng)意寫作等通用任務方面,同樣表現(xiàn)出色。該模型采用MoE架構(gòu),總參數(shù)為200B,激?

    • 剛剛,OpenAI發(fā)布GPT-image-1模型更強吉卜力版本來啦

      OpenAI發(fā)布全新圖像生成模型GPT-image-1,通過API向全球開發(fā)者開放。該模型支持精細控制圖像敏感度、生成效率、背景、輸出格式等參數(shù),并集成吉卜力模式。Adobe、Figma等企業(yè)已將其應用于產(chǎn)品中。API支持批量生成、蒙版編輯、透明度調(diào)整等高級功能,圖像生成成本從0.02-0.19美元/張不等。CEO Sam Altman表示該模型與ChatGPT版本差異顯著,開發(fā)者可通過API實現(xiàn)更多創(chuàng)意場景。新模型在?

    • 剛剛,商湯發(fā)布第六代大模型:6000億參數(shù)多模態(tài)MoE,中長視頻直接可推理

      現(xiàn)在的國產(chǎn)AI應用,一口氣看好幾分鐘的視頻,都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段,AI就搖身一變成“名偵探”做剖析:它會對整個視頻的內(nèi)容先做一個總結(jié),再按照秒級,對視頻片段做內(nèi)容上的推演。商湯科技聯(lián)合創(chuàng)始人楊帆認為:銀河通用合伙人、大模型負責人張直政表示:除此之外,上海交通大學副教授閆維新對這個問題的看法是:總言之,商湯作為國?

    • 大規(guī)模專家并行推理集群實現(xiàn)性能3倍躍遷,聯(lián)通元景開啟推理新紀元

      中國聯(lián)通持續(xù)技術(shù)攻堅,依托元景大模型MaaS平臺成功搭建“大規(guī)模專家并行”推理集群,實現(xiàn)DeepSeekMoE大模型在多節(jié)點間的超高效集群推理,單卡吞吐提升3倍,解碼時延降低50%。這一成果不僅為人工智能技術(shù)的創(chuàng)新發(fā)展提供了強大助力,也讓各行業(yè)以更高效率應用AI技術(shù),加速推動千行百業(yè)的數(shù)字化轉(zhuǎn)型。這一推理創(chuàng)新舉措必將助力各行業(yè)在復雜多變、競爭激烈的市場環(huán)境中搶占先機,以智能化驅(qū)動數(shù)字化轉(zhuǎn)型,進推動實體經(jīng)濟高質(zhì)量發(fā)展。

    • 首次實現(xiàn)圖像思考 OpenAI重磅發(fā)布o3/o4-mini:史上最強、最智能模型

      快科技4月17日消息,今日,OpenAI新款AI模型o3、o4-mini重磅發(fā)布,這是OpenAI迄今最強、最智能的模型。據(jù)了解,OpenAI o3/o4-mini首次具備真正的視覺推理能力,看圖識圖已經(jīng)是小菜一碟了,現(xiàn)在還會看圖思考。OpenAI o3/o4-mini能同時處理文本、圖像和音頻,并且能作為Agent智能體自動調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式。通過強化學習,OpenAI訓練了o3/o4-mini如何?

    • 提升大模型自動修Bug能力 豆包正式開源首個多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動豆包大模型團隊宣布,正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評測基準。相比于以往聚焦Python的單語言任務,Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景,也更能反映當前模型在自動化軟件工程”方向上的實際能力邊界。