AI新模型KOSMOS-G：實現(xiàn)零樣本高保真圖像生成

2023-10-12 14:42 · 稿源：站長之家

劃重點:
?? 近期，圖像生成技術(shù)取得顯著進展，但從廣義視覺語言輸入生成圖像一直是未開拓領(lǐng)域。
??? KOSMOS-G 是一個新型模型，利用多模型LLMs解決這一問題，能夠從文本描述中生成詳細圖像。
?? KOSMOS-G是首個能夠根據(jù)描述生成包含多個對象的圖像的模型，可用于替代CLIP，并開啟更多應用領(lǐng)域。

站長之家（ChinaZ.com）10月12日消息:最近，圖像生成技術(shù)取得了顯著的進展，尤其是在從文本描述生成圖像以及將文本和圖像結(jié)合生成新圖像方面。然而，一個尚未充分探索的領(lǐng)域是從廣義視覺語言輸入生成圖像，例如從描述涉及多個對象和人物的場景生成圖像。微軟研究、紐約大學和滑鐵盧大學的研究人員引入了KOSMOS-G，這是一種利用多模型LLMs來解決這一問題的模型。

KOSMOS-G能夠從文本描述和多幅圖片的復雜組合中創(chuàng)建詳細的圖像，即使它以前沒有見過這些示例。它是第一個能夠在描述中包含各種對象或事物的圖像中生成圖像的模型。KOSMOS-G可以替代CLIP，這為使用ControlNet和LoRA等其他技術(shù)開辟了新的應用可能性。

KOSMOS-G采用了一種巧妙的方法來從文本和圖像生成圖像。它首先通過訓練多模型LLM（能夠同時理解文本和圖像），然后與CLIP文本編碼器進行對齊(擅長理解文本)。當我們?yōu)镵OSMOS-G提供包含文本和分段圖像的標題時，它經(jīng)過訓練來創(chuàng)建與描述匹配并遵循說明的圖像。它通過使用預訓練的圖像解碼器并利用從圖像中學到的知識來在不同情境下生成準確的圖像。

KOSMOS-G能夠根據(jù)說明和輸入數(shù)據(jù)生成圖像。它經(jīng)歷了三個訓練階段。在第一階段，該模型在多模型語料庫上進行了預訓練。在第二階段，通過CLIP監(jiān)督，訓練了一個AlignerNet來將KOSMOS-G的輸出空間與U-Net的輸入空間對齊。在第三階段，KOSMOS-G通過對精心策劃的數(shù)據(jù)執(zhí)行構(gòu)成生成任務來進行微調(diào)。在階段1，只訓練MLLM。在階段2，帶有MLLM凍結(jié)的AlignerNet進行了訓練。在階段3，AlignerNet和MLLM都進行了聯(lián)合訓練。圖像解碼器在所有階段都保持凍結(jié)狀態(tài)。

KOSMOS-G在不同設置下的零樣本圖像生成非常出色。它可以生成有意義、漂亮且可以根據(jù)需要進行定制的圖像。它可以改變上下文、添加特定風格、進行修改并添加圖像的額外細節(jié)。KOSMOS-G是第一個能夠在零樣本設置中實現(xiàn)多實體VL2I的模型。

KOSMOS-G可以輕松取代圖像生成系統(tǒng)中的CLIP，這為以前不可能的應用領(lǐng)域打開了令人興奮的新可能性。通過構(gòu)建在CLIP的基礎上，KOSMOS-G有望推動從基于文本生成圖像轉(zhuǎn)向基于文本和視覺信息的組合生成圖像，為許多創(chuàng)新應用創(chuàng)造機會。

KOSMOS-G是一種能夠從文本和多個圖像生成詳細圖像的模型。它采用了一種獨特的訓練策略，即“在指導之前對齊”。KOSMOS-G擅長制作單個對象的圖像，并是首個能夠在多個對象的情況下做到這一點的模型。它還可以替代CLIP，并與ControlNet和LoRA等其他技術(shù)一起使用于新的應用。簡而言之，KOSMOS-G是將圖像生成塑造成一種語言的初步步驟。

論文網(wǎng)址:https://arxiv.org/abs/2310.02992

（舉報）

相關(guān)推薦

關(guān)鍵詞：

字節(jié)發(fā)布豆包1.5深度思考模型：“實拍級”圖像生成

快科技4月17日消息，據(jù)報道，今日，在火山引擎AI創(chuàng)新巡展杭州站的現(xiàn)場，字節(jié)跳動旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出，豆包1.5深度思考模型在多個關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能。在數(shù)學、編程、科學推理這類專業(yè)領(lǐng)域中，它能夠精準高效地處理復雜問題；在創(chuàng)意寫作等通用任務方面，同樣表現(xiàn)出色。該模型采用MoE架構(gòu)，總參數(shù)為200B，激?

?豆包1.5深度思考模型 ?火山引擎AI創(chuàng)新 ?字節(jié)跳動技術(shù)發(fā)布
薦UniToken：多模態(tài)AI的“全能選手”，一次編碼搞定圖文理解與圖像生成

復旦大學與美團研究者提出UniToken框架，首次在統(tǒng)一模型中實現(xiàn)圖文理解與生成任務的"雙優(yōu)表現(xiàn)"。該方案融合連續(xù)和離散視覺編碼，有效解決了傳統(tǒng)多模態(tài)建模中的"任務干擾"和"表示割裂"問題。通過三階段訓練策略（視覺語義對齊、多任務聯(lián)合訓練、指令強化微調(diào)），UniToken在多個基準測試中性能超越專用模型。其創(chuàng)新性體現(xiàn)在：1）統(tǒng)一的雙邊視覺編碼

?UniToken ?多模態(tài)建模 ?視覺編碼
阿里開源通義新模型：指定首尾圖片生成視頻

快科技4月18日消息，據(jù)報道，阿里巴巴旗下通義萬相宣布開源其創(chuàng)新視頻生成技術(shù)首尾幀生視頻14B模型。這項突破性AI技術(shù)能夠根據(jù)用戶提供的起始和結(jié)束畫面，智能生成720p高清過渡視頻，為視頻創(chuàng)作帶來全新可能。該模型通過先進的深度學習算法，能夠精準理解輸入畫面的內(nèi)容、風格及主題特征。當用戶提供首尾兩幀圖像后，模型會智能分析畫面中的視覺元素，包括物體形?

?阿里巴巴 ?通義萬相 ?視頻生成技術(shù)
AI日報：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日，中國人工智能領(lǐng)域迎來技術(shù)標準的變革，ModelContextProtocol成為國內(nèi)AI生態(tài)的事實標準。12.英偉達發(fā)布Llama3.1NemotronUltra253B，性能?

?人工智能 ?MCP協(xié)議 ?阿里巴巴
AI日報： OpenAI推出gpt-image-1圖像生成API;納米AI發(fā)布MCP萬能工具箱;中國占全球AI專利60%

【AI日報】欄目聚焦人工智能領(lǐng)域最新動態(tài)：1) OpenAI推出ChatGPT圖像生成API，開發(fā)者可輕松集成AI繪圖功能，已生成超7億張圖片；2) 谷歌Gemini月活用戶突破3.5億，但仍落后于ChatGPT的6億用戶；3) OpenAI預測2029年收入將達1250億美元，AI代理業(yè)務成主要增長點；4) Ostris發(fā)布8B參數(shù)擴散模型Flex.2-preview，優(yōu)化ComfyUI工作流；5) 英偉達推出多模態(tài)LLM模型Describe Anything，支持指定區(qū)域生成詳細描?

?OpenAI ?ChatGPT ?圖像生成
最新AI新聞視頻去哪看？每日AI新聞報道看哪家？

AIBase是一個專注于人工智能領(lǐng)域的綜合性平臺，致力于為用戶提供豐富的AI資訊、工具和資源，幫助用戶更好地了解和探索人工智能的前沿動態(tài)和發(fā)展趨勢。作為國內(nèi)領(lǐng)先的AI信息聚合平臺，AIBase憑借其全面性、實時性和實用性，已成為AI從業(yè)者、開發(fā)者、研究者以及愛好者的重要信息來源和工具庫。隨著平臺持續(xù)進化和完善，它有望在推動AI技術(shù)普及和應用創(chuàng)新方面發(fā)揮更大作用。
簡單AI：零門檻AI修圖！3分鐘免費生成專業(yè)級春日寫真，攝影師要慌了！

春天看什么展？看人類花枝招“展”！四月的陽光、櫻花、露營趴......拍照三件套搞起來！本工具人親測了一款零門檻、超簡單、巨好用的 AI 神器——搜狐簡單 AI，從拍照到文案一站式搞定，全程不用下載，微信搜搜就能用哦~一、智能修圖：路人消失術(shù)/背景替換滿心期待拍出絕美的“春日花海大片”，但碰上陰天讓鮮花都看起來灰突突的！還有亂入的路人甲乙丙丁和滿地的?

?春季活動 ?櫻花展覽 ?攝影技巧
比GPT-4o更強？三位Adobe老將出走，做出了超強文生圖模型丨AI新榜評測

GPT-4o，被擊敗了?最近大伙都被GPT-4o生成的各種“整活”圖像刷屏了吧，各種動漫油畫風格改圖、經(jīng)典影視復現(xiàn)、漫畫設計改圖……新的玩法每天都在涌現(xiàn)，大有“AI一日，人間一年”之勢。甚至OpenAICEOSamAltman都累了:“收手吧，我們需要休息!”但就在GPT-4o火遍全球之際，一個來自初創(chuàng)團隊的新模型ReveImage，卻憑借其在特定圖像生成領(lǐng)域的出色表現(xiàn)，悄然贏得了用戶和專業(yè)榜單的

?GPT-4o ?Reve ?Image
每日最新AI新聞資訊獲取網(wǎng)站推薦 AI新聞AI變現(xiàn)教程去哪找？

在快速發(fā)展的AI時代，有一個平臺專注于為用戶提供最新、最全面的AI行業(yè)資訊和資源，它就是aibase網(wǎng)站。作為一個綜合性的AI平臺，aibase以其簡潔明了的界面設計和合理的功能布局，為用戶提供了極高的友好度體驗。隨著AI技術(shù)的不斷發(fā)展，aibase網(wǎng)站將繼續(xù)為用戶提供更多、更好的服務，成為AI領(lǐng)域不可或缺的一部分。

?AI行業(yè)資訊 ?最新科研成果 ?市場趨勢分析
七年來外觀首次大改！iPhone 17 Pro高保真機模曝光：鋁合金+玻璃拼接工藝

近日，海外博主曝光了iPhone17Pro高保真機模，在外觀設計上迎來七年來首次重大變革。從曝光的機模來看，iPhone17Pro采用鋁合金與玻璃拼接材質(zhì)。iPhone17Pro的鏡頭凸起高度或有縮減，模組表面覆蓋藍寶石玻璃與納米級抗眩光鍍膜，在提升美觀度的同時增強了實用性。

?iPhone ?17 ?Pro

熱文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

站長商機

商務合作侵權(quán)投訴廣告服務版權(quán)聲明招聘