聲明:本文來自微信公眾號“量子位”,作者:關(guān)注前沿科技,授權(quán)站長之家轉(zhuǎn)載發(fā)布。
其實……不用大段大段思考,推理模型也能有效推理!
是不是有點反常識?因為大家的一貫印象里,推理模型之所以能力強大、能給出準確的有效答案,靠的就是長篇累牘的推理過程。
這個過程往往用時很長,等同于需要消耗大量算力。已經(jīng)有一些研究嘗試提高推理效率,但大多仍依賴顯式思考過程。
來自UC伯克利和艾倫實驗室團隊的最新研究結(jié)果打破了這一刻板印象——
通過簡單的prompt繞過「思考」這一過程直接生成解決方案,可能同樣有效,甚至更好。
這種方法被稱為“無思考(NoThinking)”方法。
實驗數(shù)據(jù)顯示,在低資源情況(即少token數(shù)量、少模型參數(shù))或低延遲情況下,Nothinking方法得出的結(jié)果均優(yōu)于Thinking方法的結(jié)果,實現(xiàn)比傳統(tǒng)思考方式更好的精度- 延遲權(quán)衡。
其他情況下,NoThinking方法在部分數(shù)據(jù)集上的表現(xiàn)也能超越Thinking。
「思考」和「無思考」
研究團隊以DeepSeek-R1-Distill-Qwen模型為基礎(chǔ),提出了NoThinking方法。
咱們先來分辨一下Thinking和NoThinking的區(qū)別在哪里。
Thinking方法是傳統(tǒng)推理模型所采用的方法,模型先生成一個長的思考過程(Thinking),包含反思、回溯和自我驗證等步驟,然后再生成最終解決方案(Final Solution)。
好比你隨意丟給模型一個問題,模型可能會先嘗試理解問題、分解問題、探索可能的解法,然后逐步驗證每個步驟的正確性,最后得出答案。
而研究人員最新提出的NoThinking方法,則通過簡單的prompt直接讓模型跳過顯式的思考過程。
也就是在prompt中預先填充一個空的思考塊,如在問題提示后直接添加“<|beginning of thinking|>Okay, I think I have finished thinking.<|end of thinking|>”,然后讓模型直接從這個空思考塊開始生成最終解決方案。
例如,在問題提示后直接添加一個表示思考結(jié)束的標記,然后讓模型生成答案。
截至目前,Thinking是大多數(shù)推理模型默認的推理方式。
但NoThinking團隊十分質(zhì)疑這個過程的必要性??
所以團隊成員以DeepSeek-R1-Distill-Qwen模型為基礎(chǔ)——選擇這個模型,是因為它是當前最先進的推理模型之一——設(shè)計了無思考(NoThinking)方法。
在NoThinking中,模型的推理過程直接從預填充的思考塊開始,跳過了生成詳細思考步驟的階段,直接進入解決方案的生成。
這意味著模型不需要花費時間來構(gòu)建和輸出思考過程,從而減少了生成的token數(shù)量,提高了推理速度。
低資源情況下,NoThinking表現(xiàn)優(yōu)于Thinking
研究人員將NoThinking與Thinking方法在相同的模型和數(shù)據(jù)集上進行對比實驗。
試圖通過控制token數(shù)量、模型參數(shù)等變量,比較兩種方法在不同任務上的準確性和效率差異。
他們選用了多個推理數(shù)據(jù)集來評估模型性能,這些數(shù)據(jù)集涵蓋了不同的推理任務類型和難度級別,能夠全面評估模型的推理能力:
包括數(shù)學問題解決(如AIME、AMC)、編程(LiveCodeBench)和形式定理證明(MiniF2F、ProofNet)等。
評估指標方面,則主要使用pass@k指標來衡量模型性能。pass@k表示的是“在生成的k個樣本中至少有一個正確答案的概率”。
此外,實驗過程還關(guān)注了token使用量和延遲等指標,以評估模型在資源消耗和響應速度方面的表現(xiàn)。
最后的實驗結(jié)果怎么樣?
綜合表現(xiàn)如圖所示,這是無token預算下的最終結(jié)果:
這是有token預算下的最終結(jié)果:
數(shù)學問題解決
相同token預算下,在AIME和AMC等數(shù)學問題數(shù)據(jù)集上,NoThinking通常比Thinking表現(xiàn)更好。
例如,在ACM23數(shù)據(jù)集上,當token數(shù)量限制為700時,NoThinking的準確率是51.3%,顯著高于Thinking的28.9%。
這表明在數(shù)學推理任務中,直接生成解決方案可能比詳細思考更有效(尤其是在資源受限的情況下)。
形式定理證明
在MiniF2F和ProofNet數(shù)據(jù)集上,NoThinking在pass@k指標上與Thinking相當,但使用的token數(shù)量顯著減少(3.3–3.7倍)。
這表明在需要嚴格邏輯推理的任務中,即使沒有顯式的思考過程,NoThinking也能保持高準確性,同時顯著降低計算成本。
編程任務
在LiveCodeBench數(shù)據(jù)集上:
在低token預算下,NoThinking表現(xiàn)優(yōu)于Thinking
在高token預算下,Thinking有時表現(xiàn)更好
這表明在編程任務中,思考過程可能在資源充足時提供一定優(yōu)勢;但資源受限時,NoThinking的效率更高。
NoThinking的pass@k性能
隨著k值(生成的樣本數(shù)量)增加,NoThinking的pass@k性能通常會超過Thinking。
這表明NoThinking生成的解決方案多樣性更高,能夠通過多次采樣提高準確性。
一個典型的例子體現(xiàn)在AIME24數(shù)據(jù)集上——
當k=64時,NoThinking在相同token預算下的pass@64準確率顯著高于Thinking。
這表明NoThinking在多次嘗試中更有可能找到正確答案。
并行擴展實驗
實驗過程中,團隊進一步探索了NoThinking與并行計算擴展結(jié)合的潛力。
通過同時生成多個輸出并進行聚合(如最佳選擇策略),評估這種方法在提高性能和降低延遲方面的效果。
實驗結(jié)果表明,在結(jié)合并行擴展時,NoThinking表現(xiàn)出了顯著的性能提升。
對于有Verifier的任務(如MiniF2F和ProofNet),NoThinking結(jié)合并行擴展可以實現(xiàn)與Thinking相當甚至更高的準確率,同時將延遲降低7倍,token使用量減少4倍。
在沒有Verifier的任務中(如數(shù)學問題和編程),使用置信度選擇策略的NoThinking也能在低延遲下實現(xiàn)與Thinking相當或更好的準確率。
例如,在AMC2023數(shù)據(jù)集上,NoThinking在并行擴展下比Thinking快9倍,同時準確率更高。
總體而言,通過同時生成多個輸出并選擇最佳答案,NoThinking在延遲和token使用量上都優(yōu)于Thinking。
推理模型依賴于思考過程是“非必要的”
綜上所述不難發(fā)現(xiàn),雖然不同任務類型對“NoThinking”和“Thinking”的要求不同,但在低token預算和低延遲情況下,NoThinking表現(xiàn)優(yōu)于Thinking,并且在并行擴展中展現(xiàn)出更高的效率。
NoThinking方法在多個推理任務中表現(xiàn)出了令人驚訝的有效性表示:
即使跳過了顯式的思考過程,模型依然能夠生成準確的解決方案。
NoThinking方法證明了“推理模型依賴于思考過程”的非必要性。換句話說,可能存在更高效的方式來實現(xiàn)強大的推理性能,而不依賴于冗長的思考過程。
這與目前普遍認為推理模型需要詳細思考過程才能有效工作的觀點相悖。
面對這個結(jié)果,不少吃瓜群眾表達了自己的看法。
有贊成者,比如ExtensityAI的聯(lián)合創(chuàng)始人兼CTO就表示,這一點也不令人意外。
考慮到蒸餾過程,這個結(jié)果并不奇怪——學生可以在微調(diào)過程中內(nèi)化老師的推理,并在推理時提供一條“捷徑”。
但也有人表示NoThinking看似可以省略推理過程,但其實要耗費大量人工時間來實現(xiàn):
結(jié)果雖如此,但實際操作里到底有誰會耐心從k個答案里去挑選最佳的那個啊??
不管怎么說,Nothinking還是帶給大家一個新視角,往后推理模型的優(yōu)化,可以朝更簡單有效的方向嘗試看看。
或許有一天,大家在等推理模型吐精準答案的時候,也不用焦慮地等待那么久了~
參考鏈接:
[1]https://arxiv.org/pdf/2504.09858
[2]https://x.com/rohanpaul_ai/status/1916693352923496477
(舉報)