无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

<sub id="mfvme"></sub>

<nobr id="mfvme"><strong id="mfvme"></strong></nobr>

微軟NaturalSpeech語音合成推出第三代生成語音更自然了

2024-03-22 14:47 · 稿源：站長之家

要點(diǎn):
微軟 NaturalSpeech 推出第三代語音合成技術(shù)，實(shí)現(xiàn)了超自然的零樣本語音合成。
NaturalSpeech3采用創(chuàng)新的屬性分解擴(kuò)散模型和數(shù)據(jù) / 模型擴(kuò)展，提高了語音合成的質(zhì)量和自然度。
FACodec 和屬性分解擴(kuò)散模型是 NaturalSpeech3的關(guān)鍵技術(shù)，取得了 SOTA 的語音合成效果。

站長之家（ChinaZ.com）3月22日消息:近來，微軟 NaturalSpeech 項(xiàng)目推出了第三代語音合成技術(shù)，以實(shí)現(xiàn)超自然的零樣本語音合成。NaturalSpeech3通過屬性分解擴(kuò)散模型和數(shù)據(jù) / 模型擴(kuò)展，提高了語音合成的質(zhì)量和自然度。其關(guān)鍵技術(shù) FACodec 和屬性分解擴(kuò)散模型取得了 SOTA 的語音合成效果。

NaturalSpeech3的成功在于基于屬性分解的 Codec+Diffusion 建模范式，以及數(shù)據(jù) / 模型擴(kuò)展。傳統(tǒng) TTS 系統(tǒng)難以支持高質(zhì)量零樣本語音合成，而 NaturalSpeech3通過擴(kuò)大數(shù)據(jù)集和模型規(guī)模，大幅提升了合成語音的質(zhì)量和自然度。

論文:https://arxiv.org/abs/2403.03100

Demo 演示: https://speechresearch.github.io/naturalspeech3

FACodec 作為 NaturalSpeech3的核心組件，能夠?qū)⒄Z音波形轉(zhuǎn)換成不同屬性的解耦表示，從而實(shí)現(xiàn)高質(zhì)量語音合成。屬性分解擴(kuò)散模型的設(shè)計(jì)使得對音素持續(xù)時(shí)間、韻律、內(nèi)容和聲學(xué)細(xì)節(jié)的建模更加精準(zhǔn)，從而提升了語音合成的效果。

NaturalSpeech3在語音質(zhì)量、相似性、韻律和可懂度方面均超越了現(xiàn)有 TTS 系統(tǒng)。其擴(kuò)散模型和 FACodec 的應(yīng)用展示了基于屬性分解的語音表征在語音合成領(lǐng)域的巨大潛力，為實(shí)現(xiàn)自然且高質(zhì)量的語音合成提供了新思路。

微軟 NaturalSpeech3的技術(shù)突破和創(chuàng)新為語音合成領(lǐng)域帶來新的可能性，為未來更自然、更高效的語音合成奠定了基礎(chǔ)。這一成果將進(jìn)一步推動語音合成技術(shù)的發(fā)展，為實(shí)現(xiàn)智能語音交互提供更強(qiáng)大的支持。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

NaturalSpeech

大模型時(shí)代的新燃料|標(biāo)貝科技推出大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集

本文探討了人工智能語音交互領(lǐng)域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出，大模型技術(shù)驅(qū)動下語音交互應(yīng)用場景持續(xù)拓展，但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當(dāng)前語音大模型訓(xùn)練需要TB至PB級數(shù)據(jù)，而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實(shí)數(shù)據(jù)的重要補(bǔ)充，能通過參數(shù)化生成機(jī)制規(guī)避隱私風(fēng)險(xiǎn)，突破傳統(tǒng)數(shù)據(jù)在多樣性和場景覆蓋上的局限性。國內(nèi)外科技企業(yè)已開始廣泛應(yīng)用合成數(shù)據(jù)訓(xùn)練AI模型，如Meta的LLaMA3和微軟的Phi-4模型。標(biāo)貝科技推出超大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集，包含上萬小時(shí)數(shù)據(jù)，覆蓋中英混合場景，支持情感合成、風(fēng)格遷移等前沿任務(wù)，為虛擬偶像、數(shù)字人等元宇宙場景提供實(shí)時(shí)語音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術(shù)，在自然度、流暢度等方面達(dá)到行業(yè)領(lǐng)先水平。

?大模型技術(shù) ?人工智能變革 ?語音交互
讀書郎第三代彩屏學(xué)練機(jī)發(fā)布，學(xué)練機(jī)賽道重新洗牌？

文章探討了“雙減”政策下教育生態(tài)的變化與挑戰(zhàn)，從傳統(tǒng)黑板到現(xiàn)代大屏、AI融合的新趨勢，學(xué)習(xí)機(jī)市場正從“功能時(shí)代”邁向“智能時(shí)代”。文中提到，通過創(chuàng)新的沉浸式教學(xué)模式和技術(shù)升級，學(xué)習(xí)機(jī)在提升學(xué)習(xí)體驗(yàn)、優(yōu)化內(nèi)容設(shè)計(jì)方面發(fā)揮了重要作用，同時(shí)滿足家校對產(chǎn)品性能的不同需求。此外，AI教師將為學(xué)生提供更智能化的學(xué)習(xí)服務(wù)，實(shí)現(xiàn)人工智能與類人智慧的完美結(jié)合，顯著提高學(xué)習(xí)效果。

?雙減政策 ?學(xué)練機(jī) ?教育生態(tài)
Antropic加入“AI語音助手”賽道，能追上OpenAI、谷歌們嗎？

隨著 AI 語音產(chǎn)品的出現(xiàn)，人們對其模仿他人說話風(fēng)格的擔(dān)憂也在加劇……

?Anthropic ?AI語音助手 ?Claude
?上海毅速推出第三代模具3D打印專機(jī)E3系列，引領(lǐng)模具制造技術(shù)革新

導(dǎo)讀：近年來，金屬3D打印技術(shù)在模具制造領(lǐng)域得到了廣泛的應(yīng)用，模具行業(yè)正在迎來一場前所未有的技術(shù)變革，隨著應(yīng)用的逐漸深入，模具專用的金屬3D打印機(jī)應(yīng)運(yùn)而生。2025 年 4 月 15 日，上海毅速激光科技有限公司（以下簡稱“毅速”）正式發(fā)布了其第三代模具3D打印專機(jī)系列——E3- 420 和E3-520。這一新品的推出，標(biāo)志著模具制造行業(yè)向增材制造邁出了重要一步。毅速E3- 420 ?

?金屬3D打印 ?模具制造 ?增材制造
OpenAI推出輕量版Deep Research，所有用戶可用！

OpenAI 稱，由于很多用戶喜歡使用 Deep Research 功能，所以將推出輕量版 Deep Research，且此版本面向所有用戶開放……

?輕量版DeepResearch ?openai ?ChatGPT
奧特曼：ChatGPT不是AGI！OpenAI最強(qiáng)開源模型直擊DeepSeek

【新智元導(dǎo)讀】代碼截圖泄露，滿血版o3、o4-mini鎖定下周!更勁爆的是，一款據(jù)稱是OpenAI的神秘模型一夜爆紅，每日處理高達(dá)260億token，是Claude用量4倍。奧特曼在TED放話:將推超強(qiáng)開源模型，直面DeepSeek挑戰(zhàn)。持續(xù)的創(chuàng)新、豐富的資源和智能AI將會無縫融入日常生活，未來一代人將會覺得當(dāng)前人們又辛苦又落后。

?代碼泄露 ?OpenAI ?模型發(fā)布
亞馬遜推出AI語音模型Nova Sonic：價(jià)格比GPT-4o便宜80%

亞馬遜正式推出新一代生成式AI語音模型NovaSonic，標(biāo)志著其在人工智能語音領(lǐng)域取得重大突破。這款創(chuàng)新模型能夠原生處理語音輸入并生成自然流暢的語音輸出，在速度、語音識別準(zhǔn)確率和對話質(zhì)量等核心性能指標(biāo)上，已達(dá)到與OpenAI、谷歌等科技巨頭的尖端語音模型相媲美的水平。該模型的推出是亞馬遜構(gòu)建人工通用智能戰(zhàn)略的重要一步，未來還將推出支持多模態(tài)理解的AI模型，涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。

?亞馬遜 ?生成式AI ?Nova
薦兩大CEO多項(xiàng)分歧曝光，OpenAI與微軟的“最佳合作”要破裂？

OpenAI與微軟的"科技界最佳合作關(guān)系"出現(xiàn)裂痕。微軟6年來投資數(shù)十億美元推動OpenAI發(fā)展，助其ChatGPT用戶突破5億；同時(shí)OpenAI為微軟提供尖端AI工具，使其股價(jià)翻倍。但雙方在算力供給、模型使用權(quán)和AGI研發(fā)進(jìn)度上分歧加劇。微軟秘密啟動自研AI項(xiàng)目，挖角OpenAI對手蘇萊曼，耗資6.5億美元組建團(tuán)隊(duì)。OpenAI則可能觸發(fā)合同條款限制微軟接觸其最新技術(shù)。若OpenAI年底前未能完成?

?OpenAI ?微軟合作 ?生成式AI
OpenAI高管計(jì)劃收購谷歌Chrome：對ChatGPT搜索至關(guān)重要

OpenAI高管Nick Turley在谷歌反壟斷庭審中透露，若法院裁定谷歌必須出售Chrome瀏覽器以恢復(fù)搜索市場競爭，OpenAI有意收購。庭審揭露OpenAI曾主動尋求與谷歌合作獲取搜索技術(shù)支持，但遭拒絕。目前ChatGPT仍依賴微軟必應(yīng)搜索技術(shù)。Turley承認(rèn)搜索功能對ChatGPT至關(guān)重要，但實(shí)現(xiàn)80%查詢使用自有搜索技術(shù)仍需數(shù)年時(shí)間。他支持司法部要求谷歌共享搜索數(shù)據(jù)的提議，認(rèn)為這將加速ChatGPT技術(shù)改進(jìn)。這場訴訟揭示了AI領(lǐng)域激烈競爭的冰山一角，檢方擔(dān)憂谷歌搜索壟斷可能延伸至AI領(lǐng)域。

?OpenAI ?谷歌反壟斷 ?Chrome瀏覽器
用戶吐槽“ChatGPT太諂媚”，OpenAI 回滾“個(gè)性化”更新

OpenAI 想要為 ChatGPT 塑造一個(gè)更友好、更具支持性的個(gè)性。他們最新發(fā)布的更新確實(shí)符合這一描述，但有點(diǎn)過界了……

?GPT4o ?GPT4o怎么用 ?GPT4o官網(wǎng)

熱文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

站長商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<thead id="6xrik"><b id="6xrik"></b></thead>