站長(zhǎng)之家(ChinaZ.com)12月14日 消息:EdgeSAM是一個(gè)優(yōu)化過(guò)的SAM變體,相比原始SAM實(shí)現(xiàn)了40倍的速度提升,對(duì)性能的影響較小,可以在iPhone14上以30幀每秒的速度運(yùn)行。
該方法將原始的基于ViT的SAM圖像編碼器提煉成純CNN架構(gòu),更適合邊緣設(shè)備。通過(guò)仔細(xì)評(píng)估各種提煉策略,研究人員證明了任務(wù)不可知的編碼器提煉無(wú)法捕捉SAM所蘊(yùn)含的全部知識(shí)。
地址:https://mmlab-ntu.github.io/project/edgesam/
為了克服這一瓶頸,他們?cè)谔釤掃^(guò)程中包括了提示編碼器和蒙版解碼器,循環(huán)中還有框和點(diǎn)提示,以便提煉模型能夠準(zhǔn)確捕捉用戶(hù)輸入和蒙版生成之間的復(fù)雜動(dòng)態(tài)。此外,為了減輕點(diǎn)提示提煉帶來(lái)的數(shù)據(jù)集偏差問(wèn)題,研究人員在編碼器中加入了一個(gè)輕量級(jí)模塊。
關(guān)鍵的見(jiàn)解是在知識(shí)蒸餾過(guò)程中考慮提示,以便學(xué)生模型接收任務(wù)特定的指導(dǎo),并專(zhuān)注于更難的訓(xùn)練目標(biāo),比如更精細(xì)的邊界。
為此,引入了一種動(dòng)態(tài)提示采樣策略,旨在實(shí)現(xiàn)三個(gè)關(guān)鍵目標(biāo):從初始提示(無(wú)論是框還是點(diǎn))動(dòng)態(tài)生成多樣化的提示組合,準(zhǔn)確識(shí)別學(xué)生模型在掩模內(nèi)表現(xiàn)不準(zhǔn)確的區(qū)域,從而引導(dǎo)其專(zhuān)注于這些特定的部分,并促使教師模型,即SAM,產(chǎn)生更高質(zhì)量的掩模,以提供更精確的指導(dǎo)。
(舉報(bào))