要點:
1. 斯坦福和谷歌團隊提出了ZeroNVS,一種能夠從單個圖像實現(xiàn)零樣本360度試圖合成的新技術。
2. ZeroNVS利用3D感知擴散模型和SDS蒸餾來生成逼真且多樣化的合成圖像,聚焦于場景而不是物體。
3. 研究人員使用不同的基準數(shù)據(jù)集進行評估,結(jié)果表明ZeroNVS在零樣本性能方面明顯領先于其他方法,特別是在LPIPS指標上。
站長之家(ChinaZ.com)11月6日 消息:斯坦福和谷歌團隊提出了一項名為ZeroNVS的創(chuàng)新技術,能夠從單個圖像實現(xiàn)零樣本360度試圖合成。過去,3D感知擴散模型的訓練主要集中在模型生成單個物體的SDS蒸餾上,但要生成逼真且多樣化的合成圖像,需要關注整個場景。ZeroNVS的方法涉及使用高質(zhì)量大規(guī)模數(shù)據(jù)集,如Objaverse-XL,以實現(xiàn)從新視角生成逼真圖像,然后通過SDS蒸餾采樣,提高3D一致性。與以往的工作不同,ZeroNVS聚焦于場景,而不是物體,因為背景對于圖像多樣性至關重要。
在具體方法上,研究人員首先訓練擴散模型,然后使用它來執(zhí)行新穎的視圖合成,隨后進行3D SDS蒸餾。與以往不同的是,ZeroNVS引入了一種具有六個自由度的相機表示,以捕獲所有可能的位置和方向。這種表示被稱為“6DoF+1”,它對于場景的剛性變換具有不變性。此外,研究人員還通過“SDS anchoring”來提高多樣性,使用DDIM對新視圖進行采樣,然后使用最近的圖像作為指導。
論文地址:https://arxiv.org/pdf/2310.17994.pdf
在實驗結(jié)果方面,研究人員使用了一組標準的新視圖合成指標來評估各種方法,主要關注LPIPS。結(jié)果顯示,ZeroNVS在零樣本性能方面明顯領先于其他方法,包括DS-NeRF、PixelNeRF等。此外,研究人員還引入了Mip-NeRF360數(shù)據(jù)集,來進一步測試單張圖像的360度視圖合成任務,結(jié)果仍然顯示ZeroNVS表現(xiàn)出色。
總之,ZeroNVS是一項創(chuàng)新的技術,可以從單個圖像生成多樣的合成圖像,聚焦于場景級的合成。它利用3D感知擴散模型和SDS蒸餾,采用新的相機表示和“SDS anchoring”來提高性能,從而在零樣本性能方面取得顯著成果。這一技術有望在計算機視覺和圖像合成領域產(chǎn)生重要影響。
(舉報)