劃重點:
?? 近期,圖像生成技術(shù)取得顯著進展,但從廣義視覺語言輸入生成圖像一直是未開拓領(lǐng)域。
??? KOSMOS-G 是一個新型模型,利用多模型LLMs解決這一問題,能夠從文本描述中生成詳細圖像。
?? KOSMOS-G是首個能夠根據(jù)描述生成包含多個對象的圖像的模型,可用于替代CLIP,并開啟更多應用領(lǐng)域。
站長之家(ChinaZ.com)10月12日 消息:最近,圖像生成技術(shù)取得了顯著的進展,尤其是在從文本描述生成圖像以及將文本和圖像結(jié)合生成新圖像方面。然而,一個尚未充分探索的領(lǐng)域是從廣義視覺語言輸入生成圖像,例如從描述涉及多個對象和人物的場景生成圖像。微軟研究、紐約大學和滑鐵盧大學的研究人員引入了KOSMOS-G,這是一種利用多模型LLMs來解決這一問題的模型。
KOSMOS-G能夠從文本描述和多幅圖片的復雜組合中創(chuàng)建詳細的圖像,即使它以前沒有見過這些示例。它是第一個能夠在描述中包含各種對象或事物的圖像中生成圖像的模型。KOSMOS-G可以替代CLIP,這為使用ControlNet和LoRA等其他技術(shù)開辟了新的應用可能性。
KOSMOS-G采用了一種巧妙的方法來從文本和圖像生成圖像。它首先通過訓練多模型LLM(能夠同時理解文本和圖像),然后與CLIP文本編碼器進行對齊(擅長理解文本)。當我們?yōu)镵OSMOS-G提供包含文本和分段圖像的標題時,它經(jīng)過訓練來創(chuàng)建與描述匹配并遵循說明的圖像。它通過使用預訓練的圖像解碼器并利用從圖像中學到的知識來在不同情境下生成準確的圖像。
KOSMOS-G能夠根據(jù)說明和輸入數(shù)據(jù)生成圖像。它經(jīng)歷了三個訓練階段。在第一階段,該模型在多模型語料庫上進行了預訓練。在第二階段,通過CLIP監(jiān)督,訓練了一個AlignerNet來將KOSMOS-G的輸出空間與U-Net的輸入空間對齊。在第三階段,KOSMOS-G通過對精心策劃的數(shù)據(jù)執(zhí)行構(gòu)成生成任務來進行微調(diào)。在階段1,只訓練MLLM。在階段2,帶有MLLM凍結(jié)的AlignerNet進行了訓練。在階段3,AlignerNet和MLLM都進行了聯(lián)合訓練。圖像解碼器在所有階段都保持凍結(jié)狀態(tài)。
KOSMOS-G在不同設置下的零樣本圖像生成非常出色。它可以生成有意義、漂亮且可以根據(jù)需要進行定制的圖像。它可以改變上下文、添加特定風格、進行修改并添加圖像的額外細節(jié)。KOSMOS-G是第一個能夠在零樣本設置中實現(xiàn)多實體VL2I的模型。
KOSMOS-G可以輕松取代圖像生成系統(tǒng)中的CLIP,這為以前不可能的應用領(lǐng)域打開了令人興奮的新可能性。通過構(gòu)建在CLIP的基礎上,KOSMOS-G有望推動從基于文本生成圖像轉(zhuǎn)向基于文本和視覺信息的組合生成圖像,為許多創(chuàng)新應用創(chuàng)造機會。
KOSMOS-G是一種能夠從文本和多個圖像生成詳細圖像的模型。它采用了一種獨特的訓練策略,即“在指導之前對齊”。KOSMOS-G擅長制作單個對象的圖像,并是首個能夠在多個對象的情況下做到這一點的模型。它還可以替代CLIP,并與ControlNet和LoRA等其他技術(shù)一起使用于新的應用。簡而言之,KOSMOS-G是將圖像生成塑造成一種語言的初步步驟。
論文網(wǎng)址:https://arxiv.org/abs/2310.02992
(舉報)