站長之家(ChinaZ.com)9月18日 消息:谷歌團(tuán)隊(duì)最新提出「生成圖像動(dòng)力學(xué)」,這項(xiàng)研究提出了一種基于圖像空間的場景動(dòng)力學(xué)先驗(yàn)?zāi)P?。該模型可以將單張靜態(tài)圖片轉(zhuǎn)換成無縫循環(huán)視頻,或者用于與圖片中的對象進(jìn)行交互。
項(xiàng)目地址:https://generative-dynamics.github.io/#demo
研究人員首先從包含自然振蕩運(yùn)動(dòng)的真實(shí)視頻中,如樹葉搖曳、花朵飄動(dòng)、蠟燭跳動(dòng)和衣物飄揚(yáng)等,提取運(yùn)動(dòng)軌跡。然后利用這些軌跡數(shù)據(jù)訓(xùn)練模型學(xué)習(xí)圖像動(dòng)力學(xué)的先驗(yàn)知識。對于任意輸入圖片,模型可以預(yù)測每個(gè)像素的長期運(yùn)動(dòng)表示,作者稱之為神經(jīng)隨機(jī)運(yùn)動(dòng)紋理。這些表示隨后轉(zhuǎn)換為密集的運(yùn)動(dòng)軌跡,可生成整段視頻。配合圖像渲染模塊,這些軌跡可以用于各種下游應(yīng)用,如將靜態(tài)圖片轉(zhuǎn)換成無縫循環(huán)視頻,或者讓用戶可以與圖片中的對象進(jìn)行交互。
利用神經(jīng)隨機(jī)運(yùn)動(dòng)紋理,研究人員可以模擬對象對用戶交互的響應(yīng)。用戶可以在圖片中拖動(dòng)一個(gè)點(diǎn),然后釋放手指,場景會根據(jù)點(diǎn)的位置和方向產(chǎn)生相應(yīng)運(yùn)動(dòng)。用戶還可以點(diǎn)擊選擇不同的圖片進(jìn)行交互。
通過調(diào)整運(yùn)動(dòng)紋理的振幅,研究人員可以放大或縮小物體的運(yùn)動(dòng)效果。他們還可以通過插值預(yù)測的運(yùn)動(dòng)紋理來生成慢動(dòng)作視頻。
該方法自動(dòng)將單張靜態(tài)圖片轉(zhuǎn)換成無縫循環(huán)視頻,具有廣闊的應(yīng)用前景。它為創(chuàng)作更加逼真的數(shù)字內(nèi)容提供了可能,如將電影片段的單幀轉(zhuǎn)換為可交互的動(dòng)態(tài)場景。該研究為基于單張圖片合成視頻開辟了新的思路。
特點(diǎn):
(1)從視頻中提取自然運(yùn)動(dòng)軌跡,訓(xùn)練獲得圖像動(dòng)力學(xué)先驗(yàn)?zāi)P?/p>
(2)對靜態(tài)圖片預(yù)測像素級長期運(yùn)動(dòng)表示,即神經(jīng)隨機(jī)運(yùn)動(dòng)紋理
(3)將運(yùn)動(dòng)紋理轉(zhuǎn)換為密集運(yùn)動(dòng)軌跡,合成動(dòng)態(tài)視頻
(4)支持用戶與圖片中的對象交互
(5)調(diào)整運(yùn)動(dòng)紋理振幅來控制運(yùn)動(dòng)效果
(6)通過插值產(chǎn)生慢動(dòng)作視頻
(舉報(bào))