**劃重點(diǎn):**
1. ?? GLEE是一種通用物體級別基礎(chǔ)模型,由華中科技大學(xué)、字節(jié)跳動和約翰斯·霍普金斯大學(xué)的研究人員共同推出,突破了當(dāng)前視覺基礎(chǔ)模型的限制,提供準(zhǔn)確而全面的物體級信息。
2. ?? GLEE以其在各種任務(wù)中表現(xiàn)卓越的通用性而聞名,無需特定任務(wù)適應(yīng)即可在不同對象感知任務(wù)中定位和識別物體,同時(shí)集成大型語言模型以提供多模態(tài)研究的通用物體級信息。
3. ?? 該模型展現(xiàn)出出色的靈活性和卓越的泛化能力,特別在零樣本傳輸場景中表現(xiàn)突出。通過整合各種數(shù)據(jù)源,包括自動標(biāo)記的大量數(shù)據(jù),GLEE不僅實(shí)現(xiàn)了可擴(kuò)展的數(shù)據(jù)集擴(kuò)展,還提高了零樣本能力,成為未來圖像和視頻任務(wù)的基礎(chǔ)模型。
站長之家(ChinaZ.com)12月18日 消息:近日,來自華中科技大學(xué)、字節(jié)跳動和約翰斯·霍普金斯大學(xué)的研究人員推出了一款名為GLEE的全新通用物體級別基礎(chǔ)模型,為圖像和視頻分析帶來了全新的可能性。這一技術(shù)突破依賴深度學(xué)習(xí)的神奇,使計(jì)算機(jī)視覺系統(tǒng)能夠像虛擬偵探一樣,在數(shù)字體驗(yàn)的畫布上識別、跟蹤和理解各種物體。
GLEE的獨(dú)特之處在于其卓越的通用性,無需特定任務(wù)的適應(yīng)即可在各種任務(wù)中定位和識別物體。該模型集成了圖像編碼器、文本編碼器和視覺提示器,用于多模態(tài)輸入處理和廣義物體表示預(yù)測。通過在Objects365、COCO和Visual Genome等多樣化的數(shù)據(jù)集上進(jìn)行訓(xùn)練,GLEE采用統(tǒng)一框架,涵蓋檢測、分割、跟蹤、定位和識別開放場景中的對象。
GLEE通過使用動態(tài)類頭的MaskDINO以及相似性計(jì)算進(jìn)行預(yù)測的對象解碼器,經(jīng)過目標(biāo)檢測和實(shí)例分割的預(yù)訓(xùn)練,聯(lián)合訓(xùn)練實(shí)現(xiàn)了在各種圖像和視頻任務(wù)中的最先進(jìn)性能。不僅如此,GLEE還展現(xiàn)了卓越的靈活性和強(qiáng)大的泛化能力,有效應(yīng)對各種下游任務(wù),無需特定任務(wù)的適應(yīng)。
該模型在對象檢測、實(shí)例分割、定位、多目標(biāo)跟蹤、視頻實(shí)例分割、視頻對象分割以及交互式分割和跟蹤等各種圖像和視頻任務(wù)中均表現(xiàn)卓越。甚至在與其他模型集成時(shí),GLEE仍保持著最先進(jìn)性能,展示了其表示的多樣性和有效性。
除了在技術(shù)上的突破,GLEE在零樣本泛化方面也取得了顯著進(jìn)展,通過整合大量自動標(biāo)記的數(shù)據(jù)進(jìn)一步提升了模型的性能。作為一種基礎(chǔ)模型,GLEE為當(dāng)前視覺基礎(chǔ)模型的局限性提供了創(chuàng)新性的解決方案,提供準(zhǔn)確而通用的物體級信息。
研究的未來方向聚焦在擴(kuò)展GLEE在處理復(fù)雜場景和具有長尾分布的挑戰(zhàn)性數(shù)據(jù)集方面的能力上,以提高其適應(yīng)性。此外,研究人員還探索了在訓(xùn)練過程中使用廣泛的圖像-標(biāo)題對,類似于DALL-E模型,從而提高GLEE生成詳細(xì)圖像內(nèi)容的潛力。
項(xiàng)目體驗(yàn)網(wǎng)址點(diǎn)擊這里:https://top.aibase.com/tool/glee
論文網(wǎng)址:https://arxiv.org/abs/2312.09158
(舉報(bào))