說到聲音克隆,大家都不陌生。開車時聽“志玲姐姐”為你導航,看書時“喜歡的愛豆”給你講故事,聽“AI孫燕姿”唱膾炙人口的流行歌曲,聽“馬三立”講相聲等等,這都是聲音復刻技術在生活中的具體應用。
聲音克隆,也稱聲音復刻,通過使用AI模型對大量的數(shù)據(jù)進行學習和訓練,從而得到與用戶本人在音色和發(fā)音風格上非常相似的聲音模型,快速“復刻”個性化聲音。用以彌補傳統(tǒng)語音合成技術在數(shù)字化人聲上的不足,生成紋理更為真實豐富的聲音。
近年來,隨著智能語音產業(yè)的快速發(fā)展,語音合成技術得到了廣泛應用,而聲音復刻作為語音合成拓展出的個性化應用,也在不斷取得進展。目前,聲音復刻已經在語音導航、小說閱讀、影視配音、虛擬人音色生成、AI歌曲等領域廣泛落地應用。
標貝科技聲音復刻
事實上,得益于AI技術的發(fā)展,還原人聲已經是非?;A的事了。但通過一般聲音復刻軟件克隆出來的聲音往往機械感重,缺乏語調、情感的變化,在交互過程很難帶入。想要實現(xiàn)1:1的高質量聲音克隆,更需要耗費大量時間以及高昂的定制成本。
此前,為了滿足多場景音色需求,標貝科技推出普通聲音復刻和精品聲音復刻兩種方案。?普通聲音復刻僅需5分鐘音頻數(shù)據(jù),便可實現(xiàn)與真人語氣音調基本接近的合成音色。而精品復刻則是基于30-60分鐘的音頻數(shù)據(jù),提取說話人的音色和發(fā)音特征,經過2-3天的模型訓練及效果調優(yōu),實現(xiàn)用戶個性化的音色定制。
近日,為了進一步降低聲音復刻使用門檻,標貝科技在保留普通聲音復刻方案的基礎上,依托核心的語音大模型遷移學習和深度神經網(wǎng)絡技術,對原有的精品聲音復刻方案進行升級迭代。用戶僅需提供30分鐘的音頻數(shù)據(jù),經過3個小時訓練出高相似度的聲音模型,即可將目標說話人的聲音復刻下來,高保真還原真人發(fā)音,還富有鮮明的情感表現(xiàn)力和人格化魅力。
相對于原有的方案,升級后的精品聲音復刻技術增加了音色的多情感表現(xiàn)能力,可以支持開心、憤怒、悲哀、驚訝、恐懼、厭惡等多種情緒,適用于不同情境下的語意表達。同時訓練周期縮短90%以上,整體復刻成本降低近40%。
▲新老版聲音復刻對比
個性化音色定制 讓合成聲音更便捷普惠
伴隨著語音合成技術應用不斷深入,使用場景的日益多樣化也對聲音提出了更高的要求,以標準音色合成、聲音復刻、聲音轉換等為代表的聲音定制服務開始成為發(fā)展趨勢。
實際上,AI語音定制在智能語音產業(yè)中始終具有高度的競爭優(yōu)勢。音色,是每個人獨有的聲音特色。AI聲音不僅是一項基本人機交互能力,更被賦予了很多品牌屬性。強大的音色定制能力能夠賦予機器人擁有媲美真人的聲音屬性,基于領域和場景的要求,打造更為鮮活的品牌形象。
經過多年的行業(yè)積累沉淀,標貝科技已逐步形成了一套成熟的技術方案,覆蓋從聲音畫像設計、數(shù)據(jù)采集標注、模型優(yōu)化和最終部署上線的全流程,實現(xiàn)一站式TTS商業(yè)化定制服務。面向不同層面的用戶需求,標貝科技可以基于普通聲音復刻、精品聲音復刻、標準化定制等多層級技術方案,提供從底層數(shù)據(jù)、到核心技術,再到場景應用的全鏈路TTS音色定制支持,客戶無需耗費過多時間和資源,即可實現(xiàn)專屬IP音色。
目前,標貝科技已經為湖南電信、恒生電子、信雅達、慧捷科技、人民日報、風平智能、穿山甲等客戶提供音色定制方案,覆蓋智能客服、金融券商、新聞媒體、社交娛樂、虛擬數(shù)字人、IOT機器人等領域。
未來,AIGC時代,生成式AI成為新風潮,聲音定制服務也會迎來更為廣闊的發(fā)展空間和潛力。標貝科技將不斷優(yōu)化和完善聲音定制服務,提供更加全面和智能的語音交互體驗,為用戶帶來更多驚喜和便利。
(推廣)