无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

走向世界！全球語音、聲學(xué)頂會 ICASSP 放榜，網(wǎng)易易盾論文中啦！

2023-06-08 11:32 · 稿源：站長之家用戶

每個科幻迷都向往著在未來能像和老朋友對話一樣，用寥寥數(shù)語發(fā)動星際飛船，征服星辰大海；或者擁有鋼鐵俠的人工智能管家賈維斯，幾句對話就能造出一套納米戰(zhàn)甲。其實這個畫面離我們并不遠(yuǎn)——就像 iPhone 中的 Siri 一樣同我們觸手可及。它的背后是自動語言識別技術(shù)（Automatic Speech Recognition)。這項關(guān)鍵技術(shù)能將語音轉(zhuǎn)換為計算機可識別的文字或命令，實現(xiàn)便捷、有效、智能的人機交互體驗。

而隨著深度學(xué)習(xí)等 AI 技術(shù)的發(fā)展，語音識別技術(shù)已經(jīng)取得了巨大的進步——不僅識別準(zhǔn)確度大大提高，而且能夠更好地處理口音、噪聲和背景音等問題。但隨著技術(shù)在生活和業(yè)務(wù)中的不斷應(yīng)用，仍會遇到一些瓶頸，畢竟從理論研究到實際應(yīng)用，從論文到產(chǎn)品，需要考慮太多的現(xiàn)實因素。如何讓語音識別更好地輔助內(nèi)容審核？如何讓識別動作本身也能像人腦一樣，根據(jù)對語境的理解，以更低的成本給出更準(zhǔn)確的答案？網(wǎng)易智企旗下易盾 AI Lab 給出了新方法。

易盾又出黑科技，智企邁向全世界！

近日，全球語音、聲學(xué)頂級會議 ICASSP 2023 公布了論文入選名單，網(wǎng)易智企旗下易盾 AI Lab 提交的論文成功被錄用。今年是第 48 屆 ICASSP 大會，也是疫情后的第一屆線下大會，雖然大會官方還未公布最后錄用了多少篇論文，但論文投遞的數(shù)量相較往年上升了 50%，達到了驚人的 6，000+。

面對如此激烈的競爭，網(wǎng)易智企易盾 AI Lab 團隊?wèi){借一篇語音識別方向的論文《Improving CTC-based ASR Models with Gated Interplayer Collaboration（基于 CTC 的模型改進，實現(xiàn)更強的模型結(jié)構(gòu)）》脫穎而出，成功拿到了前往希臘羅德島線下參會的門票。

“GIC”，助力語音識別更進一步

語音識別本質(zhì)上是語音序列到文字序列的轉(zhuǎn)化，而要完成這樣的轉(zhuǎn)化，一般會用到三類模型，CTC、Attention-based 和 RNN-Transducer，它們在完成任務(wù)的時候采用了不同的路徑：

CTC：基于神經(jīng)網(wǎng)絡(luò)模型，在訓(xùn)練過程中通過反向傳播來更新模型參數(shù)以最小化損失函數(shù)。該算法引入了“空白符”來表示無意義字符或者間隔符號。CTC 適合處理輸入輸出長度相差較大的數(shù)據(jù)，如語音識別中將聲學(xué)特征映射為文本；

Attention-based：注意力機制，也是基于神經(jīng)網(wǎng)絡(luò)模型，并且使用一種稱為“注意力”的技術(shù)來對輸入進行加權(quán)匯聚。在每個時間步驟上，該模型會根據(jù)當(dāng)前狀態(tài)和所有輸入計算出一個分布式權(quán)重向量，并將其應(yīng)用于所有輸入以產(chǎn)生一個加權(quán)平均值作為輸出。這種方式可以使得模型更好地關(guān)注與當(dāng)前預(yù)測相關(guān)的部分信息；

RNN-Transducer：轉(zhuǎn)錄器，這個算法結(jié)合了編碼器-解碼器框架和自回歸建模思想，在生成目標(biāo)序列時同時考慮源語言句子和已生成部分目標(biāo)語言句子之間的交互作用。與其他兩種方法不同，RNN-Transducer 沒有明確區(qū)分編碼器和解碼器階段，并且直接從源語言到目標(biāo)語言進行轉(zhuǎn)換，因此可以同時考慮源語言句子和已生成部分目標(biāo)語言句子之間的交互作用。

相比后兩者，雖然?CTC?具有天然的非自回歸解碼性質(zhì)，解碼速度相對快很多，但依然有著性能劣勢：

1. CTC 算法設(shè)置了條件獨立性假設(shè)，即 CTC 假設(shè)每個時間步的輸出之間是獨立的。這對語音識別任務(wù)來說并不合理，假如說“ji rou”這個發(fā)音，在不同的上下文中預(yù)測的文字內(nèi)容應(yīng)該不一樣的。如果上文是“我喜歡吃”，接下來“雞”的概率應(yīng)該更高，同理如果上文是“他手臂有”，接下來“肌”的概率應(yīng)該更高。如果通過 CTC 訓(xùn)練，很容易就會在忽略上文的前提下，輸出“我喜歡吃肌肉”這樣好笑的文本；

2.從建模的視角來看，Attention-based 模型和 RNN-Transducer 模型根據(jù)輸入和之前時間步的輸出預(yù)測當(dāng)前時間步的輸出，而 CTC 模型僅僅利用輸入來預(yù)測當(dāng)下的輸出，在 CTC 模型的建模過程中，文本信息僅僅是作為一種監(jiān)督信號回傳給網(wǎng)絡(luò)，并沒有作為網(wǎng)絡(luò)的輸入顯式促進模型的預(yù)測。

我們希望能在保留 CTC 解碼效率的同時，盡可能地解決以上兩點劣勢。于是，我們想從 CTC 模型本身出發(fā)，設(shè)計輕量級的模塊給基于 CTC 的模型引入文本信息，使得模型能夠整合聲學(xué)和文本信息，學(xué)習(xí)到文本序列上下文之間的相互作用，從而緩解 CTC 算法的條件獨立性假設(shè)。但過程中，我們碰到了兩個問題：如何在CTC模型（Encoder +CTC 結(jié)構(gòu)）里注入文本信息？如何自適應(yīng)地融合文本特征和聲學(xué)特征？

為了實現(xiàn)上述目標(biāo)，我們設(shè)計了 Gated Interlayer Collaboration（簡寫為GIC）機制。GIC 模塊主要包含一個嵌入層（embedding layer）和一個門控單元（gate unit）。其中，嵌入層用于生成每一音頻輸入幀的文本信息，門控單元用于自適應(yīng)地融合文本信息和聲學(xué)信息。

具體地，我們的方法基于多任務(wù)學(xué)習(xí)（Multi-task Learning）框架，利用編碼器模塊（Encoder）中間層的輸出計算輔助 CTC loss，整個網(wǎng)絡(luò)的目標(biāo)函數(shù)是最后一層的 CTC loss 和中間層輔助 CTC loss 的加權(quán)和。GIC 將網(wǎng)絡(luò)中間層的預(yù)測，即 Softmax 輸出的概率分布作為每一幀的軟標(biāo)簽，點乘嵌入層矩陣之和作為每一幀的文本表征。最后，生成的文本表征和聲學(xué)表征通過一個門控單元自適應(yīng)地融合，成為一個新特征輸入到下一層。此時的新特征融合了文本特征和聲學(xué)特征，使得下一層的 Encoder 模塊可以學(xué)習(xí)到聲學(xué)序列上下文信息和文本序列上下文信息。整個模型的框架如下圖所示：

在 Conformer 和 Transformer 這兩個模型上的實驗表明：

1. GIC?同時支持漢語和英語的場景識別，同時準(zhǔn)確度均取得了顯著的性能提升；

2. GIC 模型性能超過了同參數(shù)規(guī)模的 Attention-based 和 RNN-transducer 模型，并且具有非自回歸解碼的優(yōu)勢，帶來數(shù)倍的解碼速度提升；

3. 相對原始的 CTC 模型，GIC 在多個開源數(shù)據(jù)集有遠(yuǎn)超 10% 的相對性能提升。

Conformer 模型下的結(jié)論

Transformer 模型下的結(jié)論

GIC 為 CTC 模型的性能帶來了很大的提升。相對原始的 CTC 模型，GIC 模塊大約帶來 2M 的額外參數(shù)，其中，計算中間層輔助 CTC loss 所用的線性層與最后一層是共享的，不會帶來額外的參數(shù)。多個中間層共享嵌入層，帶來 256*5000 約等于 1.3M 的參數(shù)。除此之外，多個門控單元的參數(shù)是 256*256*2*k，合計約 0.6M 的額外參數(shù)量。

領(lǐng)先技術(shù)造就先進業(yè)務(wù)

論文中的 GIC 已經(jīng)應(yīng)用在了網(wǎng)易易盾的內(nèi)容審核業(yè)務(wù)中。

作為網(wǎng)易智企旗下一站式數(shù)字內(nèi)容風(fēng)控品牌，易盾長期專注于數(shù)字內(nèi)容安全風(fēng)控和反垃圾信息的技術(shù)研發(fā)和創(chuàng)新。其中，針對以聲音作為載體的數(shù)字內(nèi)容，易盾提供了多種音頻內(nèi)容審核引擎，包括歌曲、廣播、電視節(jié)目、直播等各種類型的音頻內(nèi)容，及時檢測和過濾含有敏感、違規(guī)、低俗，廣告內(nèi)容的語音，從而減少不良內(nèi)容的社會影響，營造良好的網(wǎng)絡(luò)環(huán)境。

針對有具體語義內(nèi)容的音頻，易盾通過語音識別技術(shù)將音頻文件中的語音內(nèi)容轉(zhuǎn)寫為文字內(nèi)容，再利用檢測模塊分析和處理文本，從而實現(xiàn)對音頻內(nèi)容的自動化審核和過濾。因此，語音識別的準(zhǔn)確率與音頻內(nèi)容的審核效率和準(zhǔn)確性是息息相關(guān)的，會直接影響到客戶開展業(yè)務(wù)的安全與穩(wěn)定。

論文中的 GIC 在內(nèi)容審核中的應(yīng)用取得了顯著的效果提升。在實際的應(yīng)用過程中，需要調(diào)試的超參數(shù)有兩個，分別是多任務(wù)學(xué)習(xí)系數(shù) lambda 和中間層層數(shù) k。在 18 層編碼器結(jié)構(gòu)中我們發(fā)現(xiàn) k=5，lambda=0.5 有較好的實驗效果。接著，我們會從這個設(shè)置開始嘗試，不斷微調(diào)以確定最優(yōu)的超參數(shù)。

幕后英雄：網(wǎng)易智企易盾 AI Lab

這不是易盾 AI Lab 團隊第一次獲得這樣規(guī)格的榮譽。

作為網(wǎng)易智企下設(shè)的始終走在人工智能研究前沿的技術(shù)團隊，易盾 AI Lab 致力于圍繞精細(xì)化、輕量化、敏捷化打造全面嚴(yán)謹(jǐn)、安全可信的 AI 技術(shù)能力，不斷提升數(shù)字內(nèi)容風(fēng)控服務(wù)水平。在這之前，團隊曾獲得多項 AI 算法競賽冠軍及重要獎勵榮譽：

2019 年第一屆中國人工智能大賽旗幟識別賽道最高檔 A 級證書

2020 年第二屆中國人工智能大賽視頻深度偽造檢測賽道最高檔 A 級證書

2021 年第三屆中國人工智能大賽視頻深度偽造檢測和音頻深度偽造檢測賽道兩項最高檔 A 級證書

2021 年中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟“創(chuàng)新之星”、“創(chuàng)新人物”

2021 年第十六屆全國人機語音通訊學(xué)術(shù)會議（NCMMSC2021）“長短視頻多語種多模態(tài)識別競賽”—漢語長短視頻直播語音關(guān)鍵詞（VKW）雙賽道冠軍

2021 年獲得浙江省政府頒發(fā)的科學(xué)技術(shù)進步獎一等獎

2022 年 ICPR 多模態(tài)字幕識別比賽（Multimodal Subtitle Recognition，簡稱 MSR 競賽，國內(nèi)首個多模態(tài)字幕識別大賽）賽道三“融合視覺和音頻的多模態(tài)字幕識別系統(tǒng)”冠軍

未來已來，AI 的 iPhone 時刻已至。今天，易盾成功登上了語音學(xué)的學(xué)術(shù)殿堂；未來，技術(shù)將成就業(yè)務(wù)的方方面面，而網(wǎng)易易盾將始終伴您左右。

（推廣）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長傳媒平臺用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)，對本頁面內(nèi)容所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任，相關(guān)信息僅供參考。站長之家將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負(fù)責(zé)。任何單位或個人認(rèn)為本頁面內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，可及時向站長之家提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明（點擊查看反饋聯(lián)系地址）。本網(wǎng)站在收到上述法律文件后，將會依法依規(guī)核實信息，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

相關(guān)推薦

關(guān)鍵詞：

國產(chǎn)飛機走向全球！C909完成老撾商業(yè)首航

快科技4月13日消息，據(jù)中國商飛消息，日前，老撾航空C909客機舉行首航儀式，該航班從老撾首都萬象瓦岱國際機場起飛，目的地為老撾南部城市巴瑟，圓滿完成首次商業(yè)飛行。該機于3月30日由中國商飛以租賃的方式交付老撾航空，未來，老撾航空計劃使用C909飛機運營老撾國內(nèi)航線，并逐漸拓展至國際航線。據(jù)了解，C909由此前的ARJ21改名而來，是我國首次按照國際標(biāo)準(zhǔn)，自行研制的具有自主知識產(chǎn)權(quán)的新型渦扇支線飛機。2002年4月經(jīng)國家批準(zhǔn)立項，2008年11月28日在上海成功首飛，2016年6月28日成功首航，實現(xiàn)了我國航線上國產(chǎn)噴氣客機零的突破。C90

?老撾航空首航 ?C909飛機 ?中國商飛
金山辦公：WPS Office全球月活6.47億 PC版首次破3億

金山辦公2025年Q1財報顯示：營收13.01億元，同比增長6.22%；凈利潤4.03億元，增長9.75%。核心業(yè)務(wù)表現(xiàn)：WPS個人版收入8.57億元，增長10.86%；WPS 365收入1.51億元，暴漲62.59%。全球月活設(shè)備達6.47億，PC端增長11.3%至3.01億，移動端增長5.14%至3.46億。公司重點布局AI功能，推動用戶付費轉(zhuǎn)化，國內(nèi)業(yè)務(wù)穩(wěn)健增長，海外通過本地化運營實現(xiàn)高速擴張。受信創(chuàng)采購流程調(diào)整影響，軟件授權(quán)收入下降20.99%至2.62億元。

?金山辦公 ?WPS ?Office
中國購物APP敦煌網(wǎng)火爆全球：97個國家交易額增速超100%

快科技4月19日消息，中國購物APP敦煌網(wǎng)(DHgate)在全球熱度持續(xù)攀升，近日，該平臺97個國家交易額增速超過100%。交易額貢獻TOP5國家為美國、英國、加拿大、法國、澳大利亞。其中在美國，敦煌網(wǎng)下載激增近十倍，一路飆到了iOS應(yīng)用商店美區(qū)排行榜的免費應(yīng)用榜第二位，僅次于ChatGPT。敦煌網(wǎng)單日新注冊買家數(shù)量自4月15日開始連續(xù)多日同比上周增長近20倍。敦煌網(wǎng)方面表示，平臺?

?敦煌網(wǎng) ?全球購物APP ?交易額增長
杭州灣庫里南極氪9X全球首發(fā)：擁有8大全球之最的頂級SUV

極氪在2025上海車展全球首發(fā)旗艦SUV 9X，該車擁有8項全球之最和1項中國首發(fā)，預(yù)計第三季度上市。9X配備全球最大一體式格柵、2.15㎡蚌式機艙蓋、4242顆鉆石切割燈組，車身超5米3。搭載L3級自動駕駛技術(shù)，算力達1400+TOPS行業(yè)最高，采用寧德時代6C電池，純電續(xù)航380公里，SOC20%-80%僅需9分鐘。動力系統(tǒng)熱效率46%，零百加速3秒級，極速240km/h。首創(chuàng)48V主動穩(wěn)定桿，最大離地間隙288mm，爬坡能力70%。該車集多項行業(yè)頂尖技術(shù)于一身，展現(xiàn)了中國品牌在高端新能源車領(lǐng)域的突破。

?極氪9X ?2025上海車展 ?全球首發(fā)SUV
文遠(yuǎn)知行 App 煥新升級，解鎖全球便捷自動駕駛出行

文遠(yuǎn)知行宣布旗下出行App"文遠(yuǎn)出行"正式上線，原WeRide Go更名升級。新App簡化了操作流程，用戶只需4步即可呼叫Robotaxi無人駕駛服務(wù)：選擇上下車點、選擇車型、解鎖車門、完成支付。該平臺還提供Robobus實時運營信息，滿足多樣化出行需求。目前服務(wù)網(wǎng)絡(luò)已覆蓋南京、鄂爾多斯、蘇州、阿布扎比等全球多地，用戶可通過微信公眾號或官網(wǎng)查詢各地運營動態(tài)。此次App升級標(biāo)志著文遠(yuǎn)知行在自動駕駛商業(yè)化應(yīng)用的重要布局，未來將持續(xù)優(yōu)化服務(wù)體驗。

?Robotaxi ?文遠(yuǎn)知行 ?自動駕駛
EBC金融集團閃耀拉美iFXExpo峰會揭秘全球貿(mào)易變局下的投資方略

金融集團持續(xù)走在前沿，與投資者共同探索全球投資機遇。

?全球貿(mào)易格局
螞蟻集團專項招募全球頂尖AI人才推“Plan A”AI人才專項計劃

螞蟻集團近日啟動"Plan A"AI人才專項計劃，面向全球頂尖高校招募人工智能領(lǐng)域的研究人才。該計劃作為"螞蟻星"校園人才項目的重要組成部分，旨在吸引優(yōu)秀研究人員參與通用人工智能(AGI)的技術(shù)探索。螞蟻集團CTO何征宇表示，公司將全力投入AGI技術(shù)研發(fā)，推動人工智能技術(shù)的普惠應(yīng)用。該計劃主要面向計算機、人工智能、網(wǎng)絡(luò)安全、數(shù)學(xué)等理工科專業(yè)的碩士及博士畢業(yè)生，要求申請者畢業(yè)時間不早于2025年11月。入選人才將獲得具有競爭力的薪資待遇和科研條件。
高通最強Soc！驍龍8 Elite領(lǐng)先版首次現(xiàn)身：榮耀GT Pro全球首發(fā)

快科技4月18日消息，榮耀GT Pro現(xiàn)身Geekbench跑分網(wǎng)站，其型號是PPG-AN00，單核成績是3056，多核成績是9516，預(yù)裝Android 15系統(tǒng)，配備16GB內(nèi)存。Geekbench跑分網(wǎng)站還顯示，榮耀GT Pro首發(fā)搭載的是高通驍龍8 Elite領(lǐng)先版平臺，其CPU主頻達到了4.47GHz，這是安卓陣營CPU頻率最高的手機芯片，相比之下，普通版本的驍龍8 Elite主頻是4.32GHz。據(jù)悉，驍龍8 Elite領(lǐng)先版的CPU由24.47GHz Oryon超大核 63.53GHz Ory

?榮耀GT ?Pro ?Geekbench跑分
全球最大線上批發(fā)商城與線下商城戰(zhàn)略合作，阿里云賦能全球貿(mào)易AI時代新篇章

作為“全球貿(mào)易中心”的義烏國際商貿(mào)城屢為天下先。今天，世界上最大的線上批發(fā)商城與世界上最大的線下商城正式簽約，此次合作由阿里巴巴先進的AI云技術(shù)提供支撐，共同開啟全球貿(mào)易數(shù)字化新篇章。 4 月 15 日，義烏商城集團宣布正式接入阿里通義大模型，結(jié)合阿里巴巴的云計算、大數(shù)據(jù)和電商等領(lǐng)域的優(yōu)勢，幫助 210 萬中小商家利用AI技術(shù)精準(zhǔn)經(jīng)營，快速出海。簽約儀?

?全球貿(mào)易 ?義烏國際商貿(mào)城 ?阿里巴巴
阿里千問3登頂全球最強開源模型已在通義App上線

阿里集團推出新一代開源AI模型"通義千問3"(Qwen3)，包含8款不同規(guī)格的混合推理模型。旗艦型號Qwen3-235B采用混合專家架構(gòu)，創(chuàng)下國產(chǎn)模型性能新紀(jì)錄；Qwen3-32B則以部署成本低、運行穩(wěn)定見長。該系列在邏輯推理、編程、翻譯等專業(yè)領(lǐng)域表現(xiàn)卓越，用戶可通過通義App和網(wǎng)頁版體驗。升級后的通義App整合問答對話、圖像理解與生成等多項功能，持續(xù)強化代碼生成、數(shù)學(xué)解題等專業(yè)場景應(yīng)用能力，致力于打造實用性強的個人AI助手。

熱文

3 天
7天

站長商機

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM