站長之家(ChinaZ.com)5月13日 消息:阿里巴巴通義實(shí)驗(yàn)室最近開源了一款名為FunClip的視頻自動(dòng)化剪輯工具,專為精準(zhǔn)和便捷的視頻切片設(shè)計(jì)。FunClip能夠自動(dòng)識(shí)別視頻中的中文語音,并允許用戶根據(jù)語音內(nèi)容裁剪視頻,大大提高了視頻編輯的效率。
項(xiàng)目地址:https://github.com/alibaba-damo-academy/FunClip
在線演示:https://modelscope.cn/studios/iic/funasr_app_clipvideo/summary
FunClip的主要特點(diǎn)
語音識(shí)別:使用阿里巴巴的FunASR Paraformer-Large模型,確保了剪輯的精準(zhǔn)性。
操作簡便:用戶可以根據(jù)識(shí)別的語音內(nèi)容選擇文本片段或說話人進(jìn)行視頻裁剪。
語言支持:目前支持中文,未來將擴(kuò)展支持英文視頻剪輯。
FunASR工具包介紹
FunASR是阿里巴巴通義實(shí)驗(yàn)室開發(fā)的一款綜合性語音識(shí)別工具包,提供端到端的語音識(shí)別解決方案和一系列開源的、性能優(yōu)越的預(yù)訓(xùn)練模型。它支持以下功能:
語音識(shí)別(ASR):提供非自回歸端到端語音識(shí)別模型,支持多任務(wù)處理。
語音活動(dòng)檢測(cè)(VAD)與標(biāo)點(diǎn)恢復(fù):通過預(yù)訓(xùn)練模型進(jìn)行有效的語音活動(dòng)區(qū)段檢測(cè),提供標(biāo)點(diǎn)恢復(fù)功能。
模型動(dòng)態(tài)部署與優(yōu)化:支持預(yù)訓(xùn)練模型的微調(diào)和推理,提供文件轉(zhuǎn)錄和實(shí)時(shí)轉(zhuǎn)錄服務(wù)。
項(xiàng)目地址:https://github.com/alibaba-damo-academy/FunASR
論文:https://arxiv.org/abs/2305.11013
Paraformer模型
Paraformer是阿里巴巴達(dá)摩院語音團(tuán)隊(duì)開發(fā)的非自回歸端到端語音識(shí)別模型,專為高效的GPU并行推理設(shè)計(jì)。它提供快速且準(zhǔn)確的語音到文本的轉(zhuǎn)換,特別適合處理長音頻。Paraformer模型的核心特點(diǎn)包括:
高效的模型架構(gòu):采用多種網(wǎng)絡(luò)結(jié)構(gòu)和優(yōu)化目標(biāo),提供高效率和準(zhǔn)確度。
功能拓展:支持熱詞定制版模型和長音頻模型,適用于多種應(yīng)用場景。
應(yīng)用場景:適用于語音輸入法、語音導(dǎo)航、智能會(huì)議紀(jì)要等多種應(yīng)用場景。
FunClip的開源為視頻內(nèi)容創(chuàng)作者和編輯者提供了一個(gè)強(qiáng)大的工具,使得視頻剪輯更加智能化和自動(dòng)化。同時(shí),F(xiàn)unASR工具包和Paraformer模型的開源,也為語音識(shí)別領(lǐng)域的研究和應(yīng)用提供了寶貴的資源。阿里巴巴通過這些開源項(xiàng)目,展示了其在AI技術(shù)領(lǐng)域的領(lǐng)導(dǎo)地位和對(duì)開放創(chuàng)新的承諾。
Paraformer模型地址:https://modelscope.cn/models/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary
(舉報(bào))