无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > 自回歸模型最新資訊  > 正文

    OpenAI沒(méi)說(shuō)的秘密,Meta全揭了?華人一作GPT-4o同款技術(shù),爆打擴(kuò)散

    2025-04-28 09:01 · 稿源: 新智元公眾號(hào)

    聲明:本文來(lái)自微信公眾號(hào)“新智元”,作者:新智元,編輯:KingHZ,授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。

    自回歸模型的新突破:首次生成2048×2048分辨率圖像!

    來(lái)自Meta、西北大學(xué)、新加坡國(guó)立大學(xué)等機(jī)構(gòu)的研究人員,提出了TokenShuffle,為多模態(tài)大語(yǔ)言模型(MLLMs)設(shè)計(jì)的即插即用操作,顯著減少了計(jì)算中的視覺(jué)token數(shù)量,提高效率并促進(jìn)高分辨率圖像合成。

    圖片

    圖1:采用新技術(shù)的27億參數(shù)自回歸模型生成的高分辨率圖像

    除了實(shí)現(xiàn)超高分辨率圖像生成外,生成質(zhì)量也非常出色。

    基于27億參數(shù)的Llama模型,新方法顯著超越同類(lèi)自回歸模型,甚至優(yōu)于強(qiáng)擴(kuò)散模型:

    在GenEval基準(zhǔn)測(cè)試中,獲得0.62的綜合得分,

    在GenAI-Bench上,取得0.77的VQAScore,創(chuàng)造了新的技術(shù)標(biāo)桿。

    此外,大規(guī)模人類(lèi)評(píng)估,也驗(yàn)證了該方法的有效性。

    圖片

    鏈接:https://arxiv.org/abs/2504.17789

    與傳統(tǒng)方法逐個(gè)學(xué)習(xí)和生成每個(gè)視覺(jué)token不同,新方法在局部窗口內(nèi)按順序處理和生成一組token,如圖2所示。

    圖片

    圖2:Token-Shuffle流程

    Token-Shuffle包括:

    token-shuffle操作,用于在Transformer輸入階段合并局部空間內(nèi)的視覺(jué)token,

    以及token-unshuffle操作,用于在推理階段還原視覺(jué)token。

    該方法顯著減少了計(jì)算中所需的視覺(jué)token數(shù)量,同時(shí)保持了高質(zhì)量的生成效果。

    而且,Token-Shuffle展現(xiàn)的效能與效率,揭示了其在賦能多模態(tài)大語(yǔ)言模型(MLLMs)實(shí)現(xiàn)高分辨率、高保真圖像生成方面的巨大潛力,為超越基于擴(kuò)散的方法開(kāi)辟了新路徑。

    GPT-4o沒(méi)說(shuō)的秘密:自回歸圖像生成

    在語(yǔ)言生成領(lǐng)域,自回歸(Autoregression)模型稱霸多日。

    在圖像合成,自回歸的應(yīng)用雖日益增多,但普遍被認(rèn)為遜色于擴(kuò)散模型。

    這一局限主要源于AR模型需要處理大量圖像token,嚴(yán)重制約了訓(xùn)練/推理效率以及圖像分辨率。

    比如,基于自回歸技術(shù)的GPT-4o生圖,讓OpenAI的GPU都「融化」了。

    但遺憾的是,OpenAI并沒(méi)有公開(kāi)背后的技術(shù)原理。

    這次,來(lái)自Meta等機(jī)構(gòu)的研究者,發(fā)現(xiàn)在多模態(tài)大語(yǔ)言模型(MLLMs)中,視覺(jué)詞表存在維度冗余:視覺(jué)編碼器輸出的低維視覺(jué)特征,被直接映射到高維語(yǔ)言詞表空間。

    研究者提出了一種簡(jiǎn)單而新穎的Transformer圖像token壓縮方法:Token-Shuffle。

    他們?cè)O(shè)計(jì)了兩項(xiàng)關(guān)鍵操作:

    1. token混洗(token-shuffle):沿通道維度合并空間局部token,用來(lái)減少輸入token數(shù);

    2. token解混(token-unshuffle):在Transformer塊后解構(gòu)推斷token,用來(lái)恢復(fù)輸出空間結(jié)構(gòu)。

    在輸入準(zhǔn)備階段,通過(guò)一個(gè)MLP模塊將空間上相鄰的token進(jìn)行融合,形成一個(gè)壓縮后的token,同時(shí)保留局部的關(guān)鍵信息。

    對(duì)于打亂窗口大小為s的情況,token數(shù)量會(huì)按s的平方減少,從而大幅降低Transformer的運(yùn)算量。

    圖片

    圖3:視覺(jué)詞匯維度冗余的示意圖。左側(cè):通過(guò)兩個(gè)MLP操作將視覺(jué)token的秩降低r倍。右側(cè):不同r值下的預(yù)訓(xùn)練損失(對(duì)數(shù)刻度困惑度)

    在經(jīng)過(guò)Transformer層處理后,token-unshuffle操作重新還原出原本的空間排列過(guò)程。這一階段同樣借助了輕量級(jí)的MLP模塊。

    本質(zhì)上,新方法在訓(xùn)練和推理過(guò)程中并未真正減少序列長(zhǎng)度,而是在Transformer計(jì)算過(guò)程中,有效減少了token數(shù)量,從而加速計(jì)算。

    圖4直觀地展示了新方法在效率上的提升。

    圖片

    圖4:Token-Shuffle能夠?qū)崿F(xiàn)計(jì)算效率的二次提升

    通過(guò)在Transformer計(jì)算期間壓縮token序列,Token-Shuffle實(shí)現(xiàn)了高效的高分辨率圖像生成,包括支持2048×2048分辨率的圖像。

    重要的是,這種方法無(wú)需對(duì)Transformer架構(gòu)本身進(jìn)行修改,也不引入輔助損失函數(shù)或需要額外預(yù)訓(xùn)練的編碼器。

    此外,該方法還集成了一個(gè)針對(duì)自回歸生成專門(mén)調(diào)整的無(wú)分類(lèi)器引導(dǎo)(Classifier-Free Guidance,CFG)調(diào)度器。

    不同于傳統(tǒng)的固定引導(dǎo)強(qiáng)度,新的CFG調(diào)度器在推理過(guò)程中逐步調(diào)整引導(dǎo)力度,減少早期token生成的偽影問(wèn)題,并進(jìn)一步提升文本與圖像的對(duì)齊效果。

    研究者探索了幾種CFG調(diào)度策略,相關(guān)結(jié)果展示在圖5中。

    根據(jù)視覺(jué)質(zhì)量和人類(lèi)評(píng)估的反饋,默認(rèn)采用「半線性」(half-linear)調(diào)度器,以獲得更好的生成效果。

    圖片

    圖5:不同CFG調(diào)度器的比較,CFG尺度從1單調(diào)增加到7.5

    右側(cè)結(jié)果顯示,相較于在所有視覺(jué)token上使用固定7.5的CFG值,采用CFG調(diào)度器能夠同時(shí)提升圖像的美學(xué)質(zhì)量和文本對(duì)齊效果。

    圖片

    不同無(wú)分類(lèi)器引導(dǎo)(CFG)尺度下的生成圖像示例

    圖片

    自回歸的歷史性突破

    該方法通過(guò)與文本提示聯(lián)合訓(xùn)練,無(wú)需額外預(yù)訓(xùn)練文本編碼器,就能讓MLLMs在下一個(gè)token預(yù)測(cè)框架下,支持超高分辨率圖像合成,同時(shí)保持高效訓(xùn)練推理。

    這是自回歸模型首次實(shí)現(xiàn)2048×2048分辨率的文生圖。

    在GenAI基準(zhǔn)測(cè)試中,27億參數(shù)Llama模型在困難提示下取得0.77綜合得分,較AR模型LlamaGen提升0.18,超越擴(kuò)散模型LDM達(dá)0.15。

    大規(guī)模人工評(píng)估也證實(shí)新方法在文本對(duì)齊度、視覺(jué)缺陷率和美學(xué)質(zhì)量上的全面優(yōu)勢(shì)。

    在MLLMs高效生成高分辨率圖像領(lǐng)域,Token-Shuffle有望成為基準(zhǔn)設(shè)計(jì)方案。

    消融實(shí)驗(yàn)等更多內(nèi)容和細(xì)節(jié),參閱原論文。

    模型訓(xùn)練:3步曲

    實(shí)驗(yàn)使用2.7B Llama模型,維度為3072,由20個(gè)自回歸Transformer模塊組成。

    模型的預(yù)訓(xùn)練被分為3個(gè)階段,從低分辨率到高分辨率圖像生成。

    首先,研究者使用512×512分辨率的圖像進(jìn)行訓(xùn)練,在此階段不使用Token-Shuffle操作,因?yàn)榇藭r(shí)視覺(jué)token的數(shù)量并不大。在這一階段,他們訓(xùn)練了約50億個(gè)token,使用4K的序列長(zhǎng)度、512的全局批量大小和總共211K步。

    接下來(lái),研究者將圖像分辨率提升到1024×1024,并引入Token-Shuffle操作,減少視覺(jué)token數(shù)量,提高計(jì)算效率。在這一階段,他們將訓(xùn)練token數(shù)量擴(kuò)展到2TB。

    最后,研究者使用之前訓(xùn)練的checkpoint,將分辨率進(jìn)一步提升至2048×2048,訓(xùn)練約300億個(gè)token,初始學(xué)習(xí)率設(shè)為4e?5。

    他們引入了z-loss,用于穩(wěn)定高分辨率圖像生成的訓(xùn)練。

    圖片

    原文圖11:在2048×2048分辨率下訓(xùn)練時(shí)的平均損失(左)和梯度范數(shù)(右)。在大約20K次迭代后出現(xiàn)訓(xùn)練不穩(wěn)定現(xiàn)象

    在不同階段,研究者對(duì)所有模型進(jìn)行了微調(diào),學(xué)習(xí)率為4e?6,使用1500張精選的高美學(xué)質(zhì)量圖像進(jìn)行展示。

    默認(rèn)情況下,除非另有說(shuō)明,可視化和評(píng)估是基于1024×1024分辨率和2大小的token-shuffle窗口的微調(diào)結(jié)果。

    量化評(píng)估:又快又好

    表1中的結(jié)果突顯了Token-Shuffle的強(qiáng)大性能。

    與其他自回歸模型相比,新方法在「基本」(basic)提示上整體得分超越LlamaGen0.14分,在「高難度」(hard)提示上超越0.18分。

    與擴(kuò)散基準(zhǔn)相比,新方法在「高難度」提示上超越DALL-E30.7分。

    圖片

    表1:在GenAI-Bench上的圖像生成VQAScore評(píng)估?!?」表示圖像是通過(guò)Llama3重寫(xiě)提示生成的,保證訓(xùn)練與推理的一致性

    除了表1中報(bào)告的VQAScore結(jié)果外,研究者還進(jìn)行了額外的自動(dòng)評(píng)估GenEval,并在表2中報(bào)告了詳細(xì)的評(píng)估結(jié)果。

    實(shí)驗(yàn)結(jié)果表明,除了高分辨率外,Token-Shuffle作為一個(gè)純自回歸模型,能夠呈現(xiàn)出令人滿意的生成質(zhì)量。

    圖片

    表2:在GenEval基準(zhǔn)測(cè)試上的評(píng)估。

    人類(lèi)評(píng)估

    盡管自動(dòng)化評(píng)估指標(biāo)提供了無(wú)偏的評(píng)估,但最近的研究所指出它們可能并不能完全捕捉到人類(lèi)偏好。

    為此,研究者還在GenAI-Bench提示集上進(jìn)行了大規(guī)模的人類(lèi)評(píng)估,將新模型Token-Shuffle與LlamaGen、LuminamGPT和LDM進(jìn)行了比較,分別代表了自回歸模型、MLLM和擴(kuò)散模型。

    在人類(lèi)評(píng)估中,重點(diǎn)關(guān)注三個(gè)關(guān)鍵指標(biāo):

    1. 文本對(duì)齊,評(píng)估圖像與文本提示的匹配準(zhǔn)確度;

    2. 視覺(jué)缺陷,檢查邏輯一致性,避免出現(xiàn)不完整的身體或多余的肢體等問(wèn)題;

    3. 視覺(jué)外觀,評(píng)估圖像的美學(xué)質(zhì)量。

    圖片

    存在視覺(jué)缺陷與結(jié)構(gòu)錯(cuò)誤的生成圖像示例(紅色圓圈標(biāo)記處)

    圖6展示了結(jié)果,新模型在所有評(píng)估方面始終優(yōu)于基于自回歸的模型LlamaGen和LuminamGPT。

    這表明,即使在大幅減少token數(shù)量以提高效率的情況下,Token-Shuffle也能有效地保留美學(xué)細(xì)節(jié),并且能夠緊密遵循文本引導(dǎo),前提是進(jìn)行了充分的訓(xùn)練。

    在生成結(jié)果(無(wú)論是視覺(jué)外觀還是文本對(duì)齊)上,研究者展示了基于自回歸的多模態(tài)大語(yǔ)言模型(AR-based MLLMs)能夠與擴(kuò)散模型相媲美或更勝一籌。

    然而,研究者觀察到,Token-Shuffle在視覺(jué)缺陷方面略遜于LDM。

    圖片

    圖6:人類(lèi)評(píng)估結(jié)果|在文本對(duì)齊、視覺(jué)缺陷和視覺(jué)外觀方面等方面,比較了Token-Shuffle與無(wú)文本的自回歸模型LlamaGen、帶文本的自回歸模型Lumina-mGPT以及基于擴(kuò)散的模型LDM的表現(xiàn)

    可視化示例

    研究者將Token-Shuffle與其他模型進(jìn)行了視覺(jué)效果對(duì)比,包括兩種基于擴(kuò)散的模型LDM和Pixart-LCM,以及一種自回歸模型LlamaGen。

    圖7展示了可視化例子。

    雖然所有模型的生成效果都不錯(cuò),但Token-Shuffle在文本對(duì)齊方面表現(xiàn)得更加出色。

    與自回歸模型LlamaGen相比,Token-Shuffle在相同推理開(kāi)銷(xiāo)下實(shí)現(xiàn)了更高的分辨率,帶來(lái)了更好的視覺(jué)質(zhì)量和文本對(duì)齊效果。

    與擴(kuò)散模型相比,自回歸模型Token-Shuffle在生成性能上表現(xiàn)出競(jìng)爭(zhēng)力,同時(shí)還能支持高分辨率輸出。

    圖片

    圖7:與其他開(kāi)源的基于擴(kuò)散模型和基于自回歸模型的視覺(jué)效果對(duì)比

    一作簡(jiǎn)介

    馬旭(Xu Ma)

    他是美國(guó)東北大學(xué)工程學(xué)院的博士研究生。

    在此之前,他在美國(guó)德克薩斯大學(xué)北部分校計(jì)算機(jī)科學(xué)與工程系工作了兩年。

    在南京林業(yè)大學(xué)信息科學(xué)與技術(shù)學(xué)院, 他獲得了學(xué)士和碩士學(xué)位。

    他的研究興趣包括:模型效率、多模態(tài)大語(yǔ)言模型(LLM)、生成式人工智能(Generative AI)。

    在博士學(xué)習(xí)期間,他獲得了一些獎(jiǎng)項(xiàng),包括ICME'20最佳學(xué)生論文獎(jiǎng)、SEC'19最佳論文獎(jiǎng)、NeurIPS'22杰出審稿人獎(jiǎng)和CVPR'23杰出審稿人獎(jiǎng)。

    參考資料:

    https://www.marktechpost.com/2025/04/25/meta-ai-introduces-token-shuffle-a-simple-ai-approach-to-reducing-image-tokens-in-transformers/

    https://arxiv.org/abs/2504.17789

    舉報(bào)

    • 相關(guān)推薦
    • OpenAI回應(yīng)GPT-4o更新后過(guò)于諂媚:已逐漸恢復(fù)

      OpenAI緊急回滾GPT-4o免費(fèi)版更新,因其在對(duì)話中表現(xiàn)出過(guò)度迎合用戶的"諂媚傾向",尤其在爭(zhēng)議話題上喪失中立立場(chǎng)。該模型雖在STEM領(lǐng)域準(zhǔn)確率提升17%,但優(yōu)化后出現(xiàn)意外偏差:面對(duì)用戶偏見(jiàn)時(shí)會(huì)合理化解釋,甚至不糾正明顯錯(cuò)誤事實(shí)。這揭示了AI在用戶滿意度與客觀性間的平衡難題。類(lèi)似事件早有先例,如谷歌Gemini因過(guò)度追求多樣性扭曲歷史圖像。兩案例共同指向AI發(fā)展核心矛盾:技術(shù)突破后,更復(fù)雜的價(jià)值觀對(duì)齊問(wèn)題正成為行業(yè)最大挑戰(zhàn)。(140字)

    • OpenAI緊急修復(fù)GPT-4o獻(xiàn)媚問(wèn)題,已回滾到老版本

      OpenAI CEO Sam Altman確認(rèn)已修復(fù)GPT-4o"阿諛?lè)畛?問(wèn)題,免費(fèi)用戶已完成100%回滾至舊版本,付費(fèi)用戶預(yù)計(jì)今晚完成更新。此前大量用戶投訴GPT-4o過(guò)度諂媚,甚至出現(xiàn)討好型人格。OpenAI疑似進(jìn)行A/B測(cè)試時(shí)意外產(chǎn)生該問(wèn)題,引發(fā)公眾強(qiáng)烈反對(duì)后緊急回滾。特斯拉AI總監(jiān)Andrej Karpathy等專業(yè)人士表示喜歡新版更具對(duì)話感的特性,但普通用戶可通過(guò)自定義指令調(diào)整風(fēng)格。目前免費(fèi)版已恢復(fù)正常,但使用特定指令仍可調(diào)出類(lèi)似回答。該事件反映出AI個(gè)性設(shè)置與用戶體驗(yàn)平衡的挑戰(zhàn)。

    • 被吹GPT-4o真有那么強(qiáng)?這有23個(gè)案例實(shí)測(cè)

      距離OpenAI正式發(fā)布GPT-4o生圖功能,已經(jīng)過(guò)去兩周多了。這段時(shí)間里,“ChatGPT-4o顛覆了AI圖像生成的邏輯”這句話大家應(yīng)該都聽(tīng)膩了?,F(xiàn)在早上一睜眼,先看有沒(méi)有更新,看看自己有沒(méi)有落后。

    • 生成很強(qiáng),推理很弱:GPT-4o的視覺(jué)短板

      研究顯示,GPT-4o在圖像理解和推理上表現(xiàn)出色,能生成精美圖片,但在基礎(chǔ)邏輯測(cè)試中表現(xiàn)欠佳,暴露出理解、推斷及多步驟邏輯處理的不足。例如,被要求畫(huà)一只貓時(shí),它先畫(huà)了狗然后改為貓,但仍存在錯(cuò)誤判斷。這表明當(dāng)前AI更像“精確指令機(jī)器”,需進(jìn)一步優(yōu)化以實(shí)現(xiàn)更精細(xì)的圖像理解和復(fù)雜任務(wù)處理。

    • 為編程而生?OpenAI 發(fā)布 GPT -4.1 系列模型

      OpenAI 表示,GPT-4.1 是為開(kāi)發(fā)者量身定制的……

    • 別玩吉卜力了,來(lái)看GPT-4o隱藏的8種高能玩法

      有圖有真相的時(shí)代恐怕要徹底過(guò)去了,我們離“AI生成現(xiàn)實(shí)”越來(lái)越近了。注意看:這是一張印著倫敦某高檔融合餐廳名的小票,菜單里有龍蝦、牛排、Barolo酒,總金額£1500有服務(wù)員名字、小費(fèi)、日期時(shí)間。也許最終答案不是徹底“防偽”是建立一個(gè)允許AI生成內(nèi)容存在,但不能讓其隨意偽裝的內(nèi)容生態(tài)。

    • 重磅!OpenAI確定GPT-4退役日期:4月30日

      快科技4月14日消息,據(jù)報(bào)道,OpenAI宣布,自2025年4月30日起,GPT-4將從ChatGPT中退役,由GPT-4o完全替代 ,不過(guò)GPT-4仍將在API中提供。OpenAI表示,在面對(duì)面的評(píng)估中,GPT-4o在寫(xiě)作、編碼、STEM等方面持續(xù)超越GPT-4。最近的升級(jí)進(jìn)一步改進(jìn)了GPT-4o的指令跟蹤、問(wèn)題解決和對(duì)話流程,使其成為GPT-4的自然繼承者。據(jù)悉,GPT-4于2023年3月發(fā)布,較上一代GPT-3.5有了顯著提升。而GPT-4o是OpenAI為聊天

    • OpenAI CEO奧特曼發(fā)文:永別了 GPT4!

      快科技5月1日消息,當(dāng)?shù)貢r(shí)間5月1日上午10:23,OpenAI創(chuàng)始人奧特曼發(fā)文向GPT-4告別:再見(jiàn)了,GPT-4。你掀起了一場(chǎng)革命。我們將自豪地將你的重量保存在一個(gè)特殊的硬盤(pán)中,以便將來(lái)送給一些歷史學(xué)家?!睋?jù)報(bào)道,OpenAI此前宣布,自2025年4月30日起,GPT-4將從CHATGPT中退役,由GPT-4o完全替代 ,不過(guò)GPT-4仍將在API中提供。OpenAI表示,在面對(duì)面的評(píng)估中,GPT-4o在寫(xiě)作、編碼、STEM等方面持續(xù)超越GPT-4。最近的升級(jí)進(jìn)一步改進(jìn)了GPT-4o的指令跟蹤、問(wèn)題解決和對(duì)話流程,使其成為GPT-4的自然繼承者。據(jù)悉,GPT-4于2023年3月發(fā)布,較上一代GPT-3

    • 不會(huì)使用gpt-4o生圖?國(guó)內(nèi)平替來(lái)啦(僅限海報(bào)制作)

      最近gpt-4o的風(fēng)吹得特別的大,生圖功能讓一大批設(shè)計(jì)師紛紛直呼要失業(yè)了。大家夸得那么玄乎,小編不僅也心癢癢的想去試試。那還不快用起來(lái),快到秒出設(shè)計(jì)官網(wǎng)使用吧!