站長(zhǎng)之家(ChinaZ.com) 6月11日 消息:騰訊混元團(tuán)隊(duì)聯(lián)合中山大學(xué)、香港科技大學(xué)推出了一款全新的圖生視頻模型,名為"Follow-Your-Pose-v2"。這一模型在視頻生成領(lǐng)域?qū)崿F(xiàn)了從單人到多人的跨越,能夠處理人物合照,讓所有人都能同時(shí)在視頻中動(dòng)起來(lái)。
主要亮點(diǎn):
支持多人視頻動(dòng)作生成:在推理耗時(shí)更少的情況下,實(shí)現(xiàn)多人視頻動(dòng)作的生成。
強(qiáng)泛化能力:無(wú)論年齡、服裝、人種、背景雜亂程度或動(dòng)作復(fù)雜性如何,都能生成高質(zhì)量視頻。
日常生活照/視頻可用:模型訓(xùn)練及生成可以使用日常生活照(包括抓拍)或視頻,無(wú)需尋找高質(zhì)量圖片/視頻。
正確處理人物遮擋:面對(duì)單張圖片上多個(gè)人物軀體相互遮擋的問(wèn)題,能生成具有正確前后關(guān)系的遮擋畫面。
技術(shù)實(shí)現(xiàn)方面:
模型利用"光流指導(dǎo)器"引入背景光流信息,即使在相機(jī)抖動(dòng)或背景不穩(wěn)定的情況下,也能生成穩(wěn)定背景動(dòng)畫。
通過(guò)"推理圖指導(dǎo)器"和"深度圖指導(dǎo)器",模型能更好地理解圖片中的人物空間信息和多角色的空間位置關(guān)系,有效解決多角色動(dòng)畫和身體遮擋問(wèn)題。
評(píng)估與比較:
團(tuán)隊(duì)提出了一個(gè)新的基準(zhǔn)Multi-Character,包含約4000幀多角色視頻,用以評(píng)估多角色生成效果。
實(shí)驗(yàn)結(jié)果顯示,"Follow-Your-Pose-v2"在兩個(gè)公共數(shù)據(jù)集(TikTok和TED演講)和7個(gè)指標(biāo)上的性能均優(yōu)于最新技術(shù)35%以上。
應(yīng)用前景:
圖像到視頻生成技術(shù)在電影內(nèi)容制作、增強(qiáng)現(xiàn)實(shí)、游戲制作及廣告等多個(gè)行業(yè)有著廣泛的應(yīng)用前景,是2024年備受關(guān)注的AI技術(shù)之一。
其他信息:
騰訊混元團(tuán)隊(duì)還公布了文生圖開(kāi)源大模型(混元DiT)的加速庫(kù),大幅提升推理效率,生圖時(shí)間縮短75%。
混元DiT模型的使用門檻降低,用戶可以在Hugging Face的官方模型庫(kù)中用三行代碼調(diào)用模型。
論文地址:https://arxiv.org/pdf/2406.03035
項(xiàng)目頁(yè):https://top.aibase.com/tool/follow-your-pose
(舉報(bào))