要點(diǎn):
微軟 NaturalSpeech 推出第三代語音合成技術(shù),實(shí)現(xiàn)了超自然的零樣本語音合成。
NaturalSpeech3采用創(chuàng)新的屬性分解擴(kuò)散模型和數(shù)據(jù) / 模型擴(kuò)展,提高了語音合成的質(zhì)量和自然度。
FACodec 和屬性分解擴(kuò)散模型是 NaturalSpeech3的關(guān)鍵技術(shù),取得了 SOTA 的語音合成效果。
站長之家(ChinaZ.com)3月22日 消息:近來,微軟 NaturalSpeech 項(xiàng)目推出了第三代語音合成技術(shù),以實(shí)現(xiàn)超自然的零樣本語音合成。NaturalSpeech3通過屬性分解擴(kuò)散模型和數(shù)據(jù) / 模型擴(kuò)展,提高了語音合成的質(zhì)量和自然度。其關(guān)鍵技術(shù) FACodec 和屬性分解擴(kuò)散模型取得了 SOTA 的語音合成效果。
NaturalSpeech3的成功在于基于屬性分解的 Codec+Diffusion 建模范式,以及數(shù)據(jù) / 模型擴(kuò)展。傳統(tǒng) TTS 系統(tǒng)難以支持高質(zhì)量零樣本語音合成,而 NaturalSpeech3通過擴(kuò)大數(shù)據(jù)集和模型規(guī)模,大幅提升了合成語音的質(zhì)量和自然度。
論文:https://arxiv.org/abs/2403.03100
Demo 演示: https://speechresearch.github.io/naturalspeech3
FACodec 作為 NaturalSpeech3的核心組件,能夠?qū)⒄Z音波形轉(zhuǎn)換成不同屬性的解耦表示,從而實(shí)現(xiàn)高質(zhì)量語音合成。屬性分解擴(kuò)散模型的設(shè)計(jì)使得對音素持續(xù)時(shí)間、韻律、內(nèi)容和聲學(xué)細(xì)節(jié)的建模更加精準(zhǔn),從而提升了語音合成的效果。
NaturalSpeech3在語音質(zhì)量、相似性、韻律和可懂度方面均超越了現(xiàn)有 TTS 系統(tǒng)。其擴(kuò)散模型和 FACodec 的應(yīng)用展示了基于屬性分解的語音表征在語音合成領(lǐng)域的巨大潛力,為實(shí)現(xiàn)自然且高質(zhì)量的語音合成提供了新思路。
微軟 NaturalSpeech3的技術(shù)突破和創(chuàng)新為語音合成領(lǐng)域帶來新的可能性,為未來更自然、更高效的語音合成奠定了基礎(chǔ)。這一成果將進(jìn)一步推動語音合成技術(shù)的發(fā)展,為實(shí)現(xiàn)智能語音交互提供更強(qiáng)大的支持。
(舉報(bào))