要點:
1. 大模型邏輯推理表現(xiàn)受前提順序影響,打亂順序可導致性能下降30%。
2. 改變前提敘述順序?qū)Υ竽P屯评肀憩F(xiàn)有重大影響,Gemini Pro、GPT-3.5-Turbo表現(xiàn)下降。
3. 邏輯推理中改變前提順序讓LLM性能大幅下降,需要進一步研究解決。
站長之家(ChinaZ.com)2月26日 消息:近期,谷歌DeepMind和斯坦福的研究人員發(fā)現(xiàn)大型語言模型在處理邏輯推理任務(wù)時,前提信息的呈現(xiàn)順序?qū)ζ浔憩F(xiàn)具有決定性影響。
在邏輯推理和數(shù)學問題中,前提按照邏輯自然順序排列時,模型表現(xiàn)更佳。對于大型語言模型,改變前提敘述順序會導致性能大幅下降,尤其是在添加分散注意力規(guī)則的情況下。
論文地址:https://arxiv.org/pdf/2402.08939.pdf
研究人員發(fā)現(xiàn),通過打亂GSM8K測試集中問題陳述的順序構(gòu)建R-GSM測試集,幾乎所有主流LLM在新測試集上表現(xiàn)下降。盡管人類在邏輯推理時對前提順序也有偏好,但LLM更容易受到順序效應(yīng)影響,這可能與自回歸模型訓練目標和數(shù)據(jù)偏差有關(guān)。
改變前提順序可以使模型準確率下降超過30%,不同順序?qū)Σ煌P陀绊懸膊煌?,如GPT模型在反向排序下表現(xiàn)較好。研究人員還發(fā)現(xiàn)加入更多干擾規(guī)則和多種前提順序會使問題更加復雜,需要進一步研究解決。在邏輯推理中,前提順序?qū)Υ笮驼Z言模型推理表現(xiàn)有重大影響,如何應(yīng)對這一問題仍是一個挑戰(zhàn)。
(舉報)