无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > NaturalSpeech最新資訊  > 正文

    微軟NaturalSpeech語音合成推出第三代 生成語音更自然了

    2024-03-22 14:47 · 稿源:站長之家

    要點(diǎn):

    • 微軟 NaturalSpeech 推出第三代語音合成技術(shù),實(shí)現(xiàn)了超自然的零樣本語音合成。

    • NaturalSpeech3采用創(chuàng)新的屬性分解擴(kuò)散模型和數(shù)據(jù) / 模型擴(kuò)展,提高了語音合成的質(zhì)量和自然度。

    • FACodec 和屬性分解擴(kuò)散模型是 NaturalSpeech3的關(guān)鍵技術(shù),取得了 SOTA 的語音合成效果。

    站長之家(ChinaZ.com)3月22日 消息:近來,微軟 NaturalSpeech 項(xiàng)目推出了第三代語音合成技術(shù),以實(shí)現(xiàn)超自然的零樣本語音合成。NaturalSpeech3通過屬性分解擴(kuò)散模型和數(shù)據(jù) / 模型擴(kuò)展,提高了語音合成的質(zhì)量和自然度。其關(guān)鍵技術(shù) FACodec 和屬性分解擴(kuò)散模型取得了 SOTA 的語音合成效果。

    NaturalSpeech3的成功在于基于屬性分解的 Codec+Diffusion 建模范式,以及數(shù)據(jù) / 模型擴(kuò)展。傳統(tǒng) TTS 系統(tǒng)難以支持高質(zhì)量零樣本語音合成,而 NaturalSpeech3通過擴(kuò)大數(shù)據(jù)集和模型規(guī)模,大幅提升了合成語音的質(zhì)量和自然度。

    image.png

    論文:https://arxiv.org/abs/2403.03100

    Demo 演示: https://speechresearch.github.io/naturalspeech3

    FACodec 作為 NaturalSpeech3的核心組件,能夠?qū)⒄Z音波形轉(zhuǎn)換成不同屬性的解耦表示,從而實(shí)現(xiàn)高質(zhì)量語音合成。屬性分解擴(kuò)散模型的設(shè)計(jì)使得對音素持續(xù)時(shí)間、韻律、內(nèi)容和聲學(xué)細(xì)節(jié)的建模更加精準(zhǔn),從而提升了語音合成的效果。

    NaturalSpeech3在語音質(zhì)量、相似性、韻律和可懂度方面均超越了現(xiàn)有 TTS 系統(tǒng)。其擴(kuò)散模型和 FACodec 的應(yīng)用展示了基于屬性分解的語音表征在語音合成領(lǐng)域的巨大潛力,為實(shí)現(xiàn)自然且高質(zhì)量的語音合成提供了新思路。

    微軟 NaturalSpeech3的技術(shù)突破和創(chuàng)新為語音合成領(lǐng)域帶來新的可能性,為未來更自然、更高效的語音合成奠定了基礎(chǔ)。這一成果將進(jìn)一步推動語音合成技術(shù)的發(fā)展,為實(shí)現(xiàn)智能語音交互提供更強(qiáng)大的支持。

    舉報(bào)

    • 相關(guān)推薦
    • 大模型時(shí)代的新燃料|標(biāo)貝科技推出大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集

      本文探討了人工智能語音交互領(lǐng)域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出,大模型技術(shù)驅(qū)動下語音交互應(yīng)用場景持續(xù)拓展,但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當(dāng)前語音大模型訓(xùn)練需要TB至PB級數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實(shí)數(shù)據(jù)的重要補(bǔ)充,能通過參數(shù)化生成機(jī)制規(guī)避隱私風(fēng)險(xiǎn),突破傳統(tǒng)數(shù)據(jù)在多樣性和場景覆蓋上的局限性。國內(nèi)外科技企業(yè)已開始廣泛應(yīng)用合成數(shù)據(jù)訓(xùn)練AI模型,如Meta的LLaMA3和微軟的Phi-4模型。標(biāo)貝科技推出超大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集,包含上萬小時(shí)數(shù)據(jù),覆蓋中英混合場景,支持情感合成、風(fēng)格遷移等前沿任務(wù),為虛擬偶像、數(shù)字人等元宇宙場景提供實(shí)時(shí)語音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術(shù),在自然度、流暢度等方面達(dá)到行業(yè)領(lǐng)先水平。

    • 讀書郎第三代彩屏學(xué)練機(jī)發(fā)布,學(xué)練機(jī)賽道重新洗牌?

      文章探討了“雙減”政策下教育生態(tài)的變化與挑戰(zhàn),從傳統(tǒng)黑板到現(xiàn)代大屏、AI融合的新趨勢,學(xué)習(xí)機(jī)市場正從“功能時(shí)代”邁向“智能時(shí)代”。文中提到,通過創(chuàng)新的沉浸式教學(xué)模式和技術(shù)升級,學(xué)習(xí)機(jī)在提升學(xué)習(xí)體驗(yàn)、優(yōu)化內(nèi)容設(shè)計(jì)方面發(fā)揮了重要作用,同時(shí)滿足家校對產(chǎn)品性能的不同需求。此外,AI教師將為學(xué)生提供更智能化的學(xué)習(xí)服務(wù),實(shí)現(xiàn)人工智能與類人智慧的完美結(jié)合,顯著提高學(xué)習(xí)效果。

    • Antropic加入“AI語音助手”賽道,能追上OpenAI、谷歌們嗎?

      隨著 AI 語音產(chǎn)品的出現(xiàn),人們對其模仿他人說話風(fēng)格的擔(dān)憂也在加劇……

    • ?上海毅速推出第三代模具3D打印專機(jī)E3系列,引領(lǐng)模具制造技術(shù)革新

      導(dǎo)讀:近年來,金屬3D打印技術(shù)在模具制造領(lǐng)域得到了廣泛的應(yīng)用,模具行業(yè)正在迎來一場前所未有的技術(shù)變革,隨著應(yīng)用的逐漸深入,模具專用的金屬3D打印機(jī)應(yīng)運(yùn)而生。2025 年 4 月 15 日,上海毅速激光科技有限公司(以下簡稱“毅速”)正式發(fā)布了其第三代模具3D打印專機(jī)系列——E3- 420 和E3-520。這一新品的推出,標(biāo)志著模具制造行業(yè)向增材制造邁出了重要一步。毅速E3- 420 ?

    • OpenAI推出輕量版Deep Research,所有用戶可用!

      OpenAI 稱,由于很多用戶喜歡使用 Deep Research 功能,所以將推出輕量版 Deep Research,且此版本面向所有用戶開放……

    • 奧特曼:ChatGPT不是AGI!OpenAI最強(qiáng)開源模型直擊DeepSeek

      【新智元導(dǎo)讀】代碼截圖泄露,滿血版o3、o4-mini鎖定下周!更勁爆的是,一款據(jù)稱是OpenAI的神秘模型一夜爆紅,每日處理高達(dá)260億token,是Claude用量4倍。奧特曼在TED放話:將推超強(qiáng)開源模型,直面DeepSeek挑戰(zhàn)。持續(xù)的創(chuàng)新、豐富的資源和智能AI將會無縫融入日常生活,未來一代人將會覺得當(dāng)前人們又辛苦又落后。

    • 亞馬遜推出AI語音模型Nova Sonic:價(jià)格比GPT-4o便宜80%

      亞馬遜正式推出新一代生成式AI語音模型NovaSonic,標(biāo)志著其在人工智能語音領(lǐng)域取得重大突破。這款創(chuàng)新模型能夠原生處理語音輸入并生成自然流暢的語音輸出,在速度、語音識別準(zhǔn)確率和對話質(zhì)量等核心性能指標(biāo)上,已達(dá)到與OpenAI、谷歌等科技巨頭的尖端語音模型相媲美的水平。該模型的推出是亞馬遜構(gòu)建人工通用智能戰(zhàn)略的重要一步,未來還將推出支持多模態(tài)理解的AI模型,涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。

    • 兩大CEO多項(xiàng)分歧曝光,OpenAI與微軟的“最佳作”要破裂?

      OpenAI與微軟的"科技界最佳合作關(guān)系"出現(xiàn)裂痕。微軟6年來投資數(shù)十億美元推動OpenAI發(fā)展,助其ChatGPT用戶突破5億;同時(shí)OpenAI為微軟提供尖端AI工具,使其股價(jià)翻倍。但雙方在算力供給、模型使用權(quán)和AGI研發(fā)進(jìn)度上分歧加劇。微軟秘密啟動自研AI項(xiàng)目,挖角OpenAI對手蘇萊曼,耗資6.5億美元組建團(tuán)隊(duì)。OpenAI則可能觸發(fā)合同條款限制微軟接觸其最新技術(shù)。若OpenAI年底前未能完成?

    • OpenAI高管計(jì)劃收購谷歌Chrome:對ChatGPT搜索至關(guān)重要

      OpenAI高管Nick Turley在谷歌反壟斷庭審中透露,若法院裁定谷歌必須出售Chrome瀏覽器以恢復(fù)搜索市場競爭,OpenAI有意收購。庭審揭露OpenAI曾主動尋求與谷歌合作獲取搜索技術(shù)支持,但遭拒絕。目前ChatGPT仍依賴微軟必應(yīng)搜索技術(shù)。Turley承認(rèn)搜索功能對ChatGPT至關(guān)重要,但實(shí)現(xiàn)80%查詢使用自有搜索技術(shù)仍需數(shù)年時(shí)間。他支持司法部要求谷歌共享搜索數(shù)據(jù)的提議,認(rèn)為這將加速ChatGPT技術(shù)改進(jìn)。這場訴訟揭示了AI領(lǐng)域激烈競爭的冰山一角,檢方擔(dān)憂谷歌搜索壟斷可能延伸至AI領(lǐng)域。

    • 用戶吐槽“ChatGPT太諂媚”,OpenAI 回滾“個(gè)性化”更新

      OpenAI 想要為 ChatGPT 塑造一個(gè)更友好、更具支持性的個(gè)性。他們最新發(fā)布的更新確實(shí)符合這一描述,但有點(diǎn)過界了……