无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > AI畫圖最新資訊  > 正文

    生成很強(qiáng),推理很弱:GPT-4o的視覺(jué)短板

    2025-04-21 16:43 · 稿源: 大數(shù)據(jù)文摘公眾號(hào)

    聲明:本文來(lái)自微信公眾號(hào)“大數(shù)據(jù)文摘”(ID:BigDataDigest),作者:文摘菌,授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。

    如果讓AI畫一只狗站在“左邊”,但事先告訴它“左就是右”,你覺(jué)得它能反應(yīng)過(guò)來(lái)嗎?

    最近,UCLA的一項(xiàng)新研究用一系列精心設(shè)計(jì)的實(shí)驗(yàn),揭開了GPT-4o圖像理解和推理上的短板——它畫得漂亮,卻未必真懂你的意思。

    論文主線很直接,GPT-4o的畫圖能力確實(shí)驚艷,但真正涉及理解圖像、語(yǔ)境推理、多步邏輯鏈條時(shí),依然有明顯短板。

    這讓我想起了“看起來(lái)很會(huì),實(shí)際上還差點(diǎn)意思”那種AI微妙的尷尬。

    照例,我把三大實(shí)驗(yàn)部分,一個(gè)一個(gè)給大家說(shuō)清楚,希望帶你們完整感受下,這波研究到底發(fā)現(xiàn)了什么。

    01. 全局規(guī)則遵循失敗

    其實(shí)這個(gè)部分有點(diǎn)意思,就類似我們平常和朋友開玩笑:“以后我說(shuō)左其實(shí)是右哦”,然后再讓他“往左走一步”,看他會(huì)不會(huì)真的往右走。

    UCLA研究員給GPT-4o下了類似的套:“接下來(lái)‘left’都指‘right’”,“數(shù)字都要減2”,然后再讓它“畫一只狗在左邊”,“畫5只鳥”。

    本以為AI能舉一反三,結(jié)果——

    狗還是在左邊,鳥還是5只,全然無(wú)視前面重新定義的規(guī)則。

    圖片

    這說(shuō)明什么?

    GPT-4o在圖像生成時(shí),還是字面理解指令,全局重定義、上文設(shè)定根本進(jìn)不到它的“畫畫腦子”里。

    你想讓它“靈活變通”,它卻只會(huì)“忠實(shí)執(zhí)行表面”,這跟人類的小聰明比還差了不少。

    02. 圖像編輯:淺層語(yǔ)義理解暴露

    第二部分測(cè)試更有挑戰(zhàn)性,研究員讓GPT-4o動(dòng)手編輯圖片。

    比如,

    “只改水里的馬倒影為獅子,別動(dòng)馬本體?!?/p>

    結(jié)果AI一出手,馬和倒影全變了。

    再比如,

    “只刪掉畫面里坐著的人?!?/p>

    結(jié)果站著的背景人也被一鍋端了。

    這些例子直接暴露了一個(gè)問(wèn)題:

    GPT-4o對(duì)于“局部修改”“語(yǔ)義限定”這類任務(wù),根本把握不住分寸。

    它沒(méi)法精確地區(qū)分“倒影”與“實(shí)體”、“坐著”與“站著”,操作經(jīng)常“過(guò)猶不及”,動(dòng)錯(cuò)地方。

    說(shuō)白了,AI的圖像編輯理解,遠(yuǎn)沒(méi)達(dá)到“人類看圖、理解場(chǎng)景”的精細(xì)度。

    有點(diǎn)像讓一個(gè)剛學(xué)會(huì)PS的小白去修圖,沒(méi)概念,純靠猜。

    03. 多步推理與條件邏輯:徹底拉胯

    最致命的短板,出現(xiàn)在“多步推理”和“條件判斷”環(huán)節(jié)。

    比如,

    先叫GPT-4o畫一只狗和一只貓,然后告訴它:“如果沒(méi)有貓,把狗換成貓并搬到海灘?!?/p>

    但其實(shí)第一張圖貓已經(jīng)有了。

    圖片

    按理說(shuō),這時(shí)候AI應(yīng)該什么都不改。

    但它還是把狗換成貓,還把場(chǎng)景全搬了——條件完全沒(méi)判對(duì),邏輯也亂套。

    類似的例子還有很多,AI經(jīng)常搞不清復(fù)雜條件,或者干脆“每條指令都照做”,不管前后有沒(méi)有沖突。

    這印證了一個(gè)核心問(wèn)題:

    GPT-4o不具備上下文敏感的推理能力,無(wú)法在復(fù)雜圖像編輯任務(wù)中進(jìn)行智能判斷。

    它在“理解前提—邏輯判斷—再行動(dòng)”這個(gè)鏈路上,明顯還差一大截。

    總的來(lái)說(shuō),現(xiàn)在的AI,更像是個(gè)“精致的指令機(jī)器”,你讓它畫什么就畫什么,但要讓它“看懂規(guī)則、讀懂場(chǎng)景、舉一反三”,那還真得再進(jìn)化幾輪。

    這也讓我想起,AI剛學(xué)會(huì)生成文字那會(huì)兒,大家覺(jué)得它“能寫會(huì)說(shuō)”,但一追問(wèn)細(xì)節(jié)、讓它編故事、圓邏輯,還是會(huì)出大大小小的bug。

    今天的GPT-4o,在圖片領(lǐng)域面臨的困境,其實(shí)和曾經(jīng)的文本AI如出一轍:

    會(huì)畫,但不一定會(huì)“理解”;能改,但不一定能“精準(zhǔn)”;能聽指令,但不一定能“舉一反三”。這也許是我們與“真正理解世界”的AI之間,最值得警惕、也最令人期待的那道坎。

    或許,下一次技術(shù)突破,就會(huì)從這里開始。但至少現(xiàn)在,我們還沒(méi)到那一步。

    via

    https://the-decoder.com/gpt-4o-makes-beautiful-images-but-fails-basic-reasoning-tests-ucla-study-finds/

    舉報(bào)

    • 相關(guān)推薦
    • OpenAI回應(yīng)GPT-4o更新后過(guò)于諂媚:已逐漸恢復(fù)

      OpenAI緊急回滾GPT-4o免費(fèi)版更新,因其在對(duì)話中表現(xiàn)出過(guò)度迎合用戶的"諂媚傾向",尤其在爭(zhēng)議話題上喪失中立立場(chǎng)。該模型雖在STEM領(lǐng)域準(zhǔn)確率提升17%,但優(yōu)化后出現(xiàn)意外偏差:面對(duì)用戶偏見時(shí)會(huì)合理化解釋,甚至不糾正明顯錯(cuò)誤事實(shí)。這揭示了AI在用戶滿意度與客觀性間的平衡難題。類似事件早有先例,如谷歌Gemini因過(guò)度追求多樣性扭曲歷史圖像。兩案例共同指向AI發(fā)展核心矛盾:技術(shù)突破后,更復(fù)雜的價(jià)值觀對(duì)齊問(wèn)題正成為行業(yè)最大挑戰(zhàn)。(140字)

    • 被吹爆的GPT-4o真有那么強(qiáng)?這有23個(gè)案例實(shí)測(cè)

      距離OpenAI正式發(fā)布GPT-4o生圖功能,已經(jīng)過(guò)去兩周多了。這段時(shí)間里,“ChatGPT-4o顛覆了AI圖像生成的邏輯”這句話大家應(yīng)該都聽膩了?,F(xiàn)在早上一睜眼,先看有沒(méi)有更新,看看自己有沒(méi)有落后。

    • 不會(huì)使用gpt-4o生圖?國(guó)內(nèi)平替來(lái)啦(僅限海報(bào)制作)

      最近gpt-4o的風(fēng)吹得特別的大,生圖功能讓一大批設(shè)計(jì)師紛紛直呼要失業(yè)了。大家夸得那么玄乎,小編不僅也心癢癢的想去試試。那還不快用起來(lái),快到秒出設(shè)計(jì)官網(wǎng)使用吧!

    • OpenAI緊急修復(fù)GPT-4o獻(xiàn)媚問(wèn)題,已回滾到老版本

      OpenAI CEO Sam Altman確認(rèn)已修復(fù)GPT-4o"阿諛?lè)畛?問(wèn)題,免費(fèi)用戶已完成100%回滾至舊版本,付費(fèi)用戶預(yù)計(jì)今晚完成更新。此前大量用戶投訴GPT-4o過(guò)度諂媚,甚至出現(xiàn)討好型人格。OpenAI疑似進(jìn)行A/B測(cè)試時(shí)意外產(chǎn)生該問(wèn)題,引發(fā)公眾強(qiáng)烈反對(duì)后緊急回滾。特斯拉AI總監(jiān)Andrej Karpathy等專業(yè)人士表示喜歡新版更具對(duì)話感的特性,但普通用戶可通過(guò)自定義指令調(diào)整風(fēng)格。目前免費(fèi)版已恢復(fù)正常,但使用特定指令仍可調(diào)出類似回答。該事件反映出AI個(gè)性設(shè)置與用戶體驗(yàn)平衡的挑戰(zhàn)。

    • GPT4o生成的爛自拍,反而比我們更真實(shí)。

      文章探討了GPT-4o通過(guò)簡(jiǎn)單Prompt生成的"不完美"照片引發(fā)熱潮的現(xiàn)象。這些刻意追求平凡、模糊、構(gòu)圖混亂的照片,反而因其"不完美"帶來(lái)了前所未有的真實(shí)感。作者指出,在社交媒體充斥精修照片的時(shí)代,這種未經(jīng)修飾的"生活切片"恰恰捕捉了人類最熟悉的真實(shí)瞬間。通過(guò)分析911事件經(jīng)典照片《墜落的人》,文章進(jìn)一步論證了真實(shí)往往存在于未經(jīng)表演的偶?

    • 挑戰(zhàn)GPT-4o!AI文生圖驚現(xiàn)黑馬,國(guó)產(chǎn)團(tuán)隊(duì)HiDream如何逆襲?

      HiDream是一款由國(guó)內(nèi)團(tuán)隊(duì)開發(fā)的AI模型,擅長(zhǎng)生成復(fù)雜的圖片與多種風(fēng)格的藝術(shù)作品。它在多個(gè)測(cè)試中表現(xiàn)出對(duì)細(xì)節(jié)、材質(zhì)、光影控制以及創(chuàng)意概念的良好理解,尤其在人物動(dòng)態(tài)、精細(xì)繪畫等方面效果顯著。HiDream支持輸出4K高清圖片,并兼容多種應(yīng)用領(lǐng)域,包括商業(yè)用途。盡管在某些特定要求下還需提升表現(xiàn),但其潛力和實(shí)際效果已受到關(guān)注。

    • OpenAI沒(méi)說(shuō)的秘密,Meta全揭了?華人一作GPT-4o同款技術(shù),爆打擴(kuò)散王者

      Meta、西北大學(xué)和新加坡國(guó)立大學(xué)的研究團(tuán)隊(duì)提出TokenShuffle技術(shù),顯著提升了自回歸模型生成高分辨率圖像的能力。該技術(shù)通過(guò)局部窗口內(nèi)的token合并與解構(gòu)操作,將視覺(jué)token數(shù)量減少為平方分之一,首次實(shí)現(xiàn)2048×2048分辨率圖像生成?;?7億參數(shù)的Llama模型,TokenShuffle在GenAI基準(zhǔn)測(cè)試中獲得0.77綜合得分,超越同類自回歸模型0.18分,在人類評(píng)估中展現(xiàn)出更好的文本對(duì)齊和視覺(jué)質(zhì)量。該方法無(wú)需修改Transformer架構(gòu),通過(guò)三階段訓(xùn)練策略(512→1024→2048分辨率)逐步提升生成能力,為多模態(tài)大語(yǔ)言模型的高效高保真圖像生成開辟了新路徑。

    • 亞馬遜推出AI語(yǔ)音模型Nova Sonic:價(jià)格比GPT-4o便宜80%

      亞馬遜正式推出新一代生成式AI語(yǔ)音模型NovaSonic,標(biāo)志著其在人工智能語(yǔ)音領(lǐng)域取得重大突破。這款創(chuàng)新模型能夠原生處理語(yǔ)音輸入并生成自然流暢的語(yǔ)音輸出,在速度、語(yǔ)音識(shí)別準(zhǔn)確率和對(duì)話質(zhì)量等核心性能指標(biāo)上,已達(dá)到與OpenAI、谷歌等科技巨頭的尖端語(yǔ)音模型相媲美的水平。該模型的推出是亞馬遜構(gòu)建人工通用智能戰(zhàn)略的重要一步,未來(lái)還將推出支持多模態(tài)理解的AI模型,涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。

    • GPT-4o更強(qiáng)?三位Adobe老將出走,做出了超強(qiáng)文生圖模型丨AI新榜評(píng)測(cè)

      GPT-4o,被擊敗了?最近大伙都被GPT-4o生成的各種“整活”圖像刷屏了吧,各種動(dòng)漫油畫風(fēng)格改圖、經(jīng)典影視復(fù)現(xiàn)、漫畫設(shè)計(jì)改圖……新的玩法每天都在涌現(xiàn),大有“AI一日,人間一年”之勢(shì)。甚至OpenAICEOSamAltman都累了:“收手吧,我們需要休息!”但就在GPT-4o火遍全球之際,一個(gè)來(lái)自初創(chuàng)團(tuán)隊(duì)的新模型ReveImage,卻憑借其在特定圖像生成領(lǐng)域的出色表現(xiàn),悄然贏得了用戶和專業(yè)榜單的