无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

<menu id="5lick"><label id="5lick"></label></menu>

<sub id="5lick"><center id="5lick"><pre id="5lick"></pre></center></sub><tfoot id="5lick"></tfoot>

外媒：ChatGPT新模型 o4 mini 的“AI幻覺(jué)率”高達(dá)48%

2025-04-21 09:17 · 稿源：站長(zhǎng)之家

ChatGPT

性能是提升了些，但，“胡說(shuō)八道”的能力提升得更快，直接登頂……

站長(zhǎng)之家(ChinaZ.com) 4月21日消息:最近，OpenAI 發(fā)布了他們比較新的推理型 AI 模型 “o3” 和 “o4 mini” ，它們雖然具備了比上一代更強(qiáng)大的性能，但 AI 幻覺(jué)卻變得更嚴(yán)重了 —— AI 幻覺(jué)是指生成型人工智能編造出實(shí)際并不存在的信息，并將其當(dāng)作事實(shí)呈現(xiàn)的現(xiàn)象。

據(jù)海外 IT 專業(yè)媒體 TechCrunch 報(bào)道稱，OpenAI 新發(fā)布的 o3 模型在 33% 的問(wèn)題上出現(xiàn)了 AI 幻覺(jué)。這一數(shù)值是 o1（16%）和 o3 mini（14.8%）的兩倍以上。而 o4 mini 模型更加嚴(yán)重 —— 該模型的幻覺(jué)率竟然高達(dá) 48%，表現(xiàn)出比包括 GPT-4o 在內(nèi)的現(xiàn)有模型更加不穩(wěn)定的狀態(tài)。這一結(jié)論是該媒體引援 OpenAI 的 PersonQA 基準(zhǔn)測(cè)試評(píng)估結(jié)果而報(bào)道的。

OpenAI 在 16 日以 “新款能夠?qū)D像融入思考過(guò)程的模型” 的口號(hào)，隆重介紹并推出這些AI模型。官方解釋稱，這些模型不僅僅是單純地識(shí)別圖像，還能在推理過(guò)程中運(yùn)用視覺(jué)信息本身 —— 即 o3 和 o4 mini 模型具備了分析用戶上傳的圖畫、圖表、圖形等內(nèi)容，以及處理模糊或旋轉(zhuǎn)圖像的能力。

在性能方面，在與編碼相關(guān)的基準(zhǔn)測(cè)試 SWE 測(cè)試中，o3 的得分為 69.1%，o4 mini的得分為 68.1%，不僅超過(guò)了之前的模型 o3 mini （49.3%），也高于競(jìng)爭(zhēng)模型 Claude3.7Sonnet 模型（62.3%）的數(shù)值。然而，盡管有這些技術(shù)上的進(jìn)步，AI幻覺(jué)出現(xiàn)率卻反而比以前有所增加。一直以來(lái)，每當(dāng)有新模型推出時(shí)，AI 幻覺(jué)的問(wèn)題都在逐步得到改善，沒(méi)曾想，OpenAI 這次的新模型卻來(lái)了個(gè)“反其道而行”。

OpenAI 尚未對(duì)這一現(xiàn)象的原因給出明確的解釋。在技術(shù)報(bào)告中，分析稱：“隨著模型需要應(yīng)對(duì)比以前更多的用戶請(qǐng)求，不僅是正確的結(jié)果，產(chǎn)生錯(cuò)誤結(jié)果的情況似乎也在增加?！?接著表示，為了查明 AI 幻覺(jué)現(xiàn)象增加的確切原因，“需要進(jìn)行更多的研究”。

人工智能行業(yè)認(rèn)為，此次事件可能會(huì)給推理型模型的可靠性帶來(lái)更多的質(zhì)疑。特別是在法律、會(huì)計(jì)、稅務(wù)等要求高度準(zhǔn)確性的行業(yè)領(lǐng)域，如果 AI 幻覺(jué)問(wèn)題得不到解決，相關(guān)引入推理型 AI 模型的可能性便會(huì)減小。

OpenAI 表示：“在所有問(wèn)題領(lǐng)域完全消除‘幻覺(jué)’都是一項(xiàng)持續(xù)的研究課題”，并表示 “我們正在繼續(xù)努力提高準(zhǔn)確性和可靠性” 。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

超過(guò)ChatGPT、Deepseek？谷歌發(fā)布 Gemini 2.5 Flash AI 模型

新版AI模型縮短了響應(yīng)時(shí)間，節(jié)約了運(yùn)算成本；還推出了新的AI芯片“Ironwood”。谷歌發(fā)布了新的AI模型“Gemini2.5Flash”，據(jù)稱，這款A(yù)I模型的性能比OpenAI和DeepSeek的AI產(chǎn)品“更高效”。谷歌計(jì)劃在三星今年上半年推出的AI伴侶機(jī)器人Ballie上搭載生成式AI模型。

?AI模型 ?谷歌 ?Gemini
OpenAI發(fā)布o3、o4 mini模型，實(shí)現(xiàn)“看圖說(shuō)話”，糊圖也行！

從 GPT-5 開(kāi)始，推理模型和非推理模型很有可能會(huì)整合在一起……

?openai ?chatgpt ?ai模型
首次實(shí)現(xiàn)圖像思考 OpenAI重磅發(fā)布o3/o4-mini：史上最強(qiáng)、最智能模型

快科技4月17日消息，今日，OpenAI新款A(yù)I模型o3、o4-mini重磅發(fā)布，這是OpenAI迄今最強(qiáng)、最智能的模型。據(jù)了解，OpenAI o3/o4-mini首次具備真正的視覺(jué)推理能力，看圖識(shí)圖已經(jīng)是小菜一碟了，現(xiàn)在還會(huì)看圖思考。OpenAI o3/o4-mini能同時(shí)處理文本、圖像和音頻，并且能作為Agent智能體自動(dòng)調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式。通過(guò)強(qiáng)化學(xué)習(xí)，OpenAI訓(xùn)練了o3/o4-mini如何?

?OpenAI ?AI模型 ?視覺(jué)推理
薦OpenAI深夜上線o3滿血版和o4 mini - 依舊領(lǐng)先。

晚上1點(diǎn)，OpenAI的直播如約而至。其實(shí)在預(yù)告的時(shí)候，幾乎已經(jīng)等于明示了。沒(méi)有廢話，今天發(fā)布的就是o3和o4-mini。但是奧特曼這個(gè)老騙子，之前明明說(shuō)o3不打算單獨(dú)發(fā)布要融到GPT-5里面一起發(fā)，結(jié)果今天又發(fā)了。。。ChatGPT Plus、Pro和Team用戶從今天開(kāi)始將在模型選擇器中看到o3、o4-mini和o4-mini-high，取代o1、o3-mini和o3-mini-high。我的已經(jīng)變了，但是我最想要的o3pro，還要幾周才能提供

?OpenAI ?GPT-4 ?模型發(fā)布
薦AI日?qǐng)?bào)：字節(jié)發(fā)布豆包1.5深度思考模型；微信首個(gè)AI助手 “元寶” 上線；OpenAI發(fā)布o4-mini、滿血版o3

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開(kāi)發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、OpenAI發(fā)布兩款多模態(tài)推理模型o4-mini、滿血版o3OpenAI在技術(shù)直播中推出了其最新的多模態(tài)模型o4-mini和滿血版o3，這兩款模型具備同時(shí)處理文本、圖像和音頻的能力，并能調(diào)用外部工?

?人工智能 ?多模態(tài)模型 ?OpenAI
IQ 過(guò)百的 AI 模型名單發(fā)布：ChatGPT、Deepseek等上榜

人工智能IQ哪家強(qiáng)？o3 智商高達(dá) 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 憑借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

?AI智商 ?ChatGPT ?Deepseek
累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

向 AI 傾訴情感在短期內(nèi)可能會(huì)帶來(lái)安慰，但過(guò)度依賴則存在風(fēng)險(xiǎn)。通過(guò)即時(shí)的回應(yīng)可以獲得暫時(shí)的穩(wěn)定感，但從長(zhǎng)遠(yuǎn)來(lái)看，這會(huì)讓人失去培養(yǎng)情緒調(diào)節(jié)能力和解決問(wèn)題能力的機(jī)會(huì)……

?人工智能 ?AI技術(shù) ?AI聊天機(jī)器人
ChatGPT受限？這 8 款免費(fèi)AI工具，也可以生成“吉卜力風(fēng)格”圖片

自從OpenAI將其先進(jìn)的圖像生成器集成到GPT-4o中后，SNS、網(wǎng)絡(luò)社區(qū)等平臺(tái)上掀起了一股“吉卜力風(fēng)格頭像”風(fēng)潮。但隨著版權(quán)爭(zhēng)議的加劇，OpenAI給這項(xiàng)“吉卜力風(fēng)格化”的圖像轉(zhuǎn)化功能加了一點(diǎn)點(diǎn)的限制。這款在線工具可以讓用戶進(jìn)行編輯、增強(qiáng)、放大圖像、將圖像轉(zhuǎn)換為視頻等多樣的操作，只需注冊(cè)便可使用。

?吉卜力風(fēng)格 ?圖像生成 ?版權(quán)爭(zhēng)議
“你可能患了血癌……” 醫(yī)生診斷錯(cuò)誤，而 ChatGPT 是對(duì)的！

“當(dāng)身體出現(xiàn)異常時(shí)，積極查明原因是很重要的?！? 接受抗癌治療后的瑪琳這樣說(shuō)道……

?AI醫(yī)療 ?ChatGPT ?AI模型
OpenAI高管計(jì)劃收購(gòu)谷歌Chrome：對(duì)ChatGPT搜索至關(guān)重要

OpenAI高管Nick Turley在谷歌反壟斷庭審中透露，若法院裁定谷歌必須出售Chrome瀏覽器以恢復(fù)搜索市場(chǎng)競(jìng)爭(zhēng)，OpenAI有意收購(gòu)。庭審揭露OpenAI曾主動(dòng)尋求與谷歌合作獲取搜索技術(shù)支持，但遭拒絕。目前ChatGPT仍依賴微軟必應(yīng)搜索技術(shù)。Turley承認(rèn)搜索功能對(duì)ChatGPT至關(guān)重要，但實(shí)現(xiàn)80%查詢使用自有搜索技術(shù)仍需數(shù)年時(shí)間。他支持司法部要求谷歌共享搜索數(shù)據(jù)的提議，認(rèn)為這將加速ChatGPT技術(shù)改進(jìn)。這場(chǎng)訴訟揭示了AI領(lǐng)域激烈競(jìng)爭(zhēng)的冰山一角，檢方擔(dān)憂谷歌搜索壟斷可能延伸至AI領(lǐng)域。

?OpenAI ?谷歌反壟斷 ?Chrome瀏覽器

熱文

3 天
7天

站長(zhǎng)商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<th id="pc2i8"><strong id="pc2i8"></strong></th>

<ul id="pc2i8"><u id="pc2i8"></u></ul>

<menu id="pc2i8"></menu>

<em id="pc2i8"><b id="pc2i8"></b></em>