无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁(yè) > 熱點(diǎn) > 關(guān)鍵詞  > ChatGPT最新資訊  > 正文

    外媒:ChatGPT新模型 o4 mini 的“AI幻覺(jué)率”高達(dá)48%

    2025-04-21 09:17 · 稿源:站長(zhǎng)之家

    ChatGPT

    性能是提升了些,但,“胡說(shuō)八道”的能力提升得更快,直接登頂……

    站長(zhǎng)之家(ChinaZ.com) 4月21日 消息:最近,OpenAI 發(fā)布了他們比較新的推理型 AI 模型 “o3” 和 “o4 mini” ,它們雖然具備了比上一代更強(qiáng)大的性能,但 AI 幻覺(jué)卻變得更嚴(yán)重了 —— AI 幻覺(jué)是指生成型人工智能編造出實(shí)際并不存在的信息,并將其當(dāng)作事實(shí)呈現(xiàn)的現(xiàn)象。

    據(jù)海外 IT 專業(yè)媒體 TechCrunch 報(bào)道稱,OpenAI 新發(fā)布的 o3 模型在 33% 的問(wèn)題上出現(xiàn)了 AI 幻覺(jué)。這一數(shù)值是 o1(16%)和 o3 mini(14.8%)的兩倍以上。而 o4 mini 模型更加嚴(yán)重 —— 該模型的幻覺(jué)率竟然高達(dá) 48%,表現(xiàn)出比包括 GPT-4o 在內(nèi)的現(xiàn)有模型更加不穩(wěn)定的狀態(tài)。這一結(jié)論是該媒體引援 OpenAI 的 PersonQA 基準(zhǔn)測(cè)試評(píng)估結(jié)果而報(bào)道的。

    OpenAI 在 16 日以 “新款能夠?qū)D像融入思考過(guò)程的模型” 的口號(hào),隆重介紹并推出這些AI模型。官方解釋稱,這些模型不僅僅是單純地識(shí)別圖像,還能在推理過(guò)程中運(yùn)用視覺(jué)信息本身 —— 即 o3 和 o4 mini 模型具備了分析用戶上傳的圖畫、圖表、圖形等內(nèi)容,以及處理模糊或旋轉(zhuǎn)圖像的能力。

    在性能方面,在與編碼相關(guān)的基準(zhǔn)測(cè)試 SWE 測(cè)試中,o3 的得分為 69.1%,o4 mini的得分為 68.1%,不僅超過(guò)了之前的模型 o3 mini (49.3%),也高于競(jìng)爭(zhēng)模型 Claude3.7Sonnet 模型(62.3%)的數(shù)值。然而,盡管有這些技術(shù)上的進(jìn)步,AI幻覺(jué)出現(xiàn)率卻反而比以前有所增加。一直以來(lái),每當(dāng)有新模型推出時(shí),AI 幻覺(jué)的問(wèn)題都在逐步得到改善,沒(méi)曾想,OpenAI 這次的新模型卻來(lái)了個(gè)“反其道而行”。

    OpenAI 尚未對(duì)這一現(xiàn)象的原因給出明確的解釋。在技術(shù)報(bào)告中,分析稱:“隨著模型需要應(yīng)對(duì)比以前更多的用戶請(qǐng)求,不僅是正確的結(jié)果,產(chǎn)生錯(cuò)誤結(jié)果的情況似乎也在增加?!?接著表示,為了查明 AI 幻覺(jué)現(xiàn)象增加的確切原因,“需要進(jìn)行更多的研究”。

    人工智能行業(yè)認(rèn)為,此次事件可能會(huì)給推理型模型的可靠性帶來(lái)更多的質(zhì)疑。特別是在法律、會(huì)計(jì)、稅務(wù)等要求高度準(zhǔn)確性的行業(yè)領(lǐng)域,如果 AI 幻覺(jué)問(wèn)題得不到解決,相關(guān)引入推理型 AI 模型的可能性便會(huì)減小。

    OpenAI 表示:“在所有問(wèn)題領(lǐng)域完全消除‘幻覺(jué)’都是一項(xiàng)持續(xù)的研究課題”,并表示 “我們正在繼續(xù)努力提高準(zhǔn)確性和可靠性” 。

    舉報(bào)

    • 相關(guān)推薦