邏輯推理大翻車！GPT-4、Gemini被曝重大缺陷，LLM嚴重降智

无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

2024-02-26 14:21 · 稿源：站長之家

要點:
1. 大模型邏輯推理表現(xiàn)受前提順序影響，打亂順序可導致性能下降30%。
2. 改變前提敘述順序?qū)Υ竽Ｐ屯评肀憩F(xiàn)有重大影響，Gemini Pro、GPT-3.5-Turbo表現(xiàn)下降。
3. 邏輯推理中改變前提順序讓LLM性能大幅下降，需要進一步研究解決。

站長之家（ChinaZ.com）2月26日消息:近期，谷歌DeepMind和斯坦福的研究人員發(fā)現(xiàn)大型語言模型在處理邏輯推理任務(wù)時，前提信息的呈現(xiàn)順序?qū)ζ浔憩F(xiàn)具有決定性影響。

在邏輯推理和數(shù)學問題中，前提按照邏輯自然順序排列時，模型表現(xiàn)更佳。對于大型語言模型，改變前提敘述順序會導致性能大幅下降，尤其是在添加分散注意力規(guī)則的情況下。

論文地址:https://arxiv.org/pdf/2402.08939.pdf

研究人員發(fā)現(xiàn)，通過打亂GSM8K測試集中問題陳述的順序構(gòu)建R-GSM測試集，幾乎所有主流LLM在新測試集上表現(xiàn)下降。盡管人類在邏輯推理時對前提順序也有偏好，但LLM更容易受到順序效應(yīng)影響，這可能與自回歸模型訓練目標和數(shù)據(jù)偏差有關(guān)。

改變前提順序可以使模型準確率下降超過30%，不同順序?qū)Σ煌Ｐ陀绊懸膊煌?，如GPT模型在反向排序下表現(xiàn)較好。研究人員還發(fā)現(xiàn)加入更多干擾規(guī)則和多種前提順序會使問題更加復雜，需要進一步研究解決。在邏輯推理中，前提順序?qū)Υ笮驼Z言模型推理表現(xiàn)有重大影響，如何應(yīng)對這一問題仍是一個挑戰(zhàn)。

（舉報）

无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

邏輯推理大翻車！GPT-4、Gemini被曝重大缺陷，LLM嚴重降智

谷歌首推Gemini 2.5 Flash：成本爆降600%

谷歌ai壟斷？谷歌每月向三星支付“巨額費用”，讓其預裝Gemini

迄今最貴！谷歌Gemini 2.5 Pro API定價公布：每百萬輸入tokens超9元

超過ChatGPT、Deepseek？谷歌發(fā)布 Gemini 2.5 Flash AI 模型

谷歌Gemini整合Veo 2視頻生成模型，8秒720P視頻輕松搞定

薦“血虧，我花3000+元用Claude做游戲，結(jié)果還不如去「白嫖」Gemini 2.5……”

反壟斷案中，谷歌披露 Gemini 月活達3.5億，日流量為3500萬

薦生成很強，推理很弱：GPT-4o的視覺短板

GPT-4退役，但，OpenAI接下來準備了“很多好消息”！

重磅！OpenAI確定GPT-4退役日期：4月30日

熱文

站長商機

邏輯推理大翻車！GPT-4、Gemini被曝重大缺陷，LLM嚴重降智

熱文

站長商機

邏輯推理大翻車！GPT-4、Gemini被曝重大缺陷，LLM嚴重降智