站長(zhǎng)之家(ChinaZ.com)10月20日 消息:智源研究院最近開(kāi)源發(fā)布了一個(gè)10億參數(shù)的三維視覺(jué)通用模型Uni3D。該模型是當(dāng)前最大的三維視覺(jué)模型之一,能夠處理點(diǎn)云數(shù)據(jù),取得了主流三維視覺(jué)任務(wù)的全方位技術(shù)突破,展現(xiàn)出超強(qiáng)的通用視覺(jué)能力。
Uni3D的研發(fā)團(tuán)隊(duì)此前曾開(kāi)發(fā)出最強(qiáng)的10億參數(shù)二維視覺(jué)模型EVA。在開(kāi)發(fā)Uni3D時(shí),他們借鑒了二維視覺(jué)模型的設(shè)計(jì)經(jīng)驗(yàn),采用了統(tǒng)一的Transformer架構(gòu),并引入多模態(tài)對(duì)齊的訓(xùn)練方法,使用圖像、文本數(shù)據(jù)來(lái)增強(qiáng)三維點(diǎn)云表示的學(xué)習(xí)。這使Uni3D可以直接繼承二維視覺(jué)模型學(xué)習(xí)到的知識(shí),迅速取得強(qiáng)大的三維視覺(jué)能力。
Uni3D在各類(lèi)三維視覺(jué)任務(wù)上都取得了 state-of-the-art 的結(jié)果,包括零樣本分類(lèi)、少樣本分割、文本驅(qū)動(dòng)圖像生成等。它展示了作為預(yù)訓(xùn)練模型的強(qiáng)大通用性和遷移學(xué)習(xí)能力。
智源研究院表示,Uni3D的開(kāi)源發(fā)布為未來(lái)三維計(jì)算機(jī)視覺(jué)的研究和應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。
論文鏈接:
https://arxiv.org/abs/2310.06773
代碼/模型鏈接:
https://github.com/baaivision/Uni3D
https://huggingface.co/BAAI/Uni3D/tree/main/modelzoo
(舉報(bào))