站長之家(ChinaZ.com)2月22日 消息:PixelPlayer是MIT研究團隊開發(fā)的項目,能夠自動從視頻中識別和分離出不同的聲音源,并與畫面位置匹配。這種能力使得系統(tǒng)能夠識別視頻中的不同聲音來源,如不同樂器的聲音,分別提取和分離這些聲音源的聲音,而無需人工標注數(shù)據(jù)。
項目地址:https://top.aibase.com/tool/pixelplayer
PixelPlayer的核心功能包括聲音源分離、聲音定位和多聲音源處理。通過分析視頻,系統(tǒng)能夠將聲音信號分離成多個組件,每個組件對應于視頻中的一個特定區(qū)域,例如將視頻中的人聲、樂器聲等分離成獨立的音軌。除了分離聲音,PixelPlayer還能夠定位聲音的來源,即確定視頻中哪個區(qū)域產(chǎn)生了特定的聲音,并能夠分別識別和處理多個聲音源同時發(fā)出聲音。
工作原理方面,PixelPlayer系統(tǒng)的訓練使用了大量視頻,而無需提供關于視頻中存在哪些樂器、它們的位置或聲音的信息。通過觀看未標記視頻,系統(tǒng)自我學習理解聲音和圖像之間的關系,實現(xiàn)聲音源的分離和定位。系統(tǒng)通過聲音和圖像的聯(lián)合分析,為視頻中的每個像素分配一個聲音成分,實現(xiàn)聲音的精確定位和分離,識別視頻中的哪些區(qū)域正在產(chǎn)生聲音,并將聲音分解成代表每個區(qū)域聲音的組件。
應用場景包括音視頻源分離、聲音定位、AI內(nèi)容配音、自動字幕和描述生成、音頻可視化、音樂教學和學習、以及研究和開發(fā)。通過PixelPlayer,音頻工程師和制作人可以從復雜的音頻錄制中分離出單獨的樂器聲軌,進行更精細的音頻處理和混音。在增強現(xiàn)實和虛擬現(xiàn)實應用中,系統(tǒng)可以逼真地模擬聲音來源,極大增強用戶體驗。此外,PixelPlayer還可以幫助內(nèi)容創(chuàng)作者為視覺內(nèi)容配音,提高視頻內(nèi)容的可訪問性,創(chuàng)造新穎的音樂可視化體驗,以及展示不同樂器在合奏中的聲音分布和特點。
MIT研究團隊通過PixelPlayer項目不僅推動了音視頻處理技術的邊界,還為多模態(tài)人工智能研究和應用提供了新的視角和工具。
(舉報)