你是否經(jīng)歷過這樣的場景?
當你去銀行購買理財產(chǎn)品時,理財經(jīng)理告訴你需要進行錄音錄像采集,經(jīng)過你的同意后,理財經(jīng)理會打開放置在柜臺上的攝像頭,然后向你確認身份信息,提示產(chǎn)品風險,還會給你一些材料閱讀簽字。
這一過程涉及到了標準的金融雙錄。
所謂“雙錄”是銀行在銷售每筆理財產(chǎn)品時使用雙錄電子設(shè)備對過程進行錄音和錄像。采用雙錄初衷是為了規(guī)范銷售話術(shù),確保消費者的知情權(quán),避免工作人員違規(guī)操作等潛在風險。自2017年起,銀監(jiān)會陸續(xù)出臺了一系列監(jiān)管政策規(guī)范金融產(chǎn)品銷售行為,明確規(guī)定銀行業(yè)金融機構(gòu)銷售專區(qū)必須實行雙錄。由此,雙錄成為各大銀行銷售理財產(chǎn)品的“規(guī)定動作”。
01
傳統(tǒng)金融雙錄質(zhì)檢滯后,AI破解實時性難題
雙錄完成后,通常銀行的做法是派工作人員對雙錄內(nèi)容進行質(zhì)檢,檢查雙錄過程中是否存在違規(guī)操作、是否符合銀監(jiān)會的要求以及銀行內(nèi)部的操作流程等。
但這種方式是通過人工抽查做事后質(zhì)檢,存在時效性滯后、風險覆蓋率低、人力成本高等問題。首先,如果質(zhì)檢發(fā)現(xiàn)雙錄過程存在問題,實際上很多業(yè)務(wù)已經(jīng)完成了,無法做到實時監(jiān)管和介入,往往會給銀行造成重大損失;其次,龐大的人工質(zhì)檢團隊依然難以對雙錄過程展開全面質(zhì)檢,包括客戶不在場、人員更換、代客操作和收受回扣等非正常行為。
據(jù)統(tǒng)計,在傳統(tǒng)雙錄場景中,一筆雙錄業(yè)務(wù)平均大約花費1小時左右,一次性通過率小于50%,這種低通過率大部分源于操作不規(guī)范、話語遺漏等,影響了客戶購買理財產(chǎn)品的業(yè)務(wù)體驗,從而降低其購買意愿。
近幾年來,銀行因雙錄工作不規(guī)范被罰款的事件屢有發(fā)生,在一定程度上也暴露了傳統(tǒng)雙錄質(zhì)檢系統(tǒng)的弊端。

銀行因雙錄不規(guī)范被罰款新聞截圖
不但如此,從銀行自身而言,建設(shè)一套人工雙錄質(zhì)檢系統(tǒng)也是一件耗時耗力的工程。一方面,人工質(zhì)檢需要銀行持續(xù)投入預(yù)算,每位客戶的錄音錄像都要保存下來,銀行要配備上百人的團隊做質(zhì)檢,而質(zhì)檢不合格的視頻又需要客戶到現(xiàn)場進行重錄,鑒于重錄操作難度大,造成客戶購買理財產(chǎn)品的體驗感差;另一方面,為了完成雙錄質(zhì)檢,銀行將不同網(wǎng)點對應(yīng)的不同銷售區(qū)域的數(shù)據(jù)收集上來,匯聚到銀行的數(shù)據(jù)中心,這中間處理非常大的數(shù)據(jù)量,花費時間周期較長。
基于對上述金融雙錄業(yè)務(wù)場景和行業(yè)痛點的深刻洞察,杭州諧云科技有限公司(簡稱諧云)的邊緣智能團隊發(fā)現(xiàn),人工質(zhì)檢的滯后性給金融雙錄業(yè)務(wù)造成了巨大的麻煩和漏洞,如果能引入音視頻分析、 AI語音識別、邊緣計算等技術(shù),實現(xiàn)雙錄過程的智能化質(zhì)檢,將對提升金融雙錄質(zhì)檢的效率,改善客戶購買理財產(chǎn)品的體驗,降低銀行運營成本等具有重要意義。
02
飛槳 PaddleSpeech 讓雙錄質(zhì)檢實時性升至秒級
諧云邊緣智能團隊自2021年開始從事算法研究,終于歷經(jīng)一年半的時間,推出完整的雙錄智能質(zhì)檢解決方案。該方案深度融合了百度飛槳的語音模型庫PaddleSpeech與自研的視頻AI分析算法模型,設(shè)計出雙錄語音視頻質(zhì)檢方案,可為銀行降低90%的人力成本,使銀行從過去上百人的質(zhì)檢團隊縮減到幾人;同時引入邊緣計算,實現(xiàn)雙錄實時質(zhì)檢,相比于傳統(tǒng)的事后質(zhì)檢,實時性從原來的小時級別提高到了秒級。

諧云雙錄智能質(zhì)檢系統(tǒng)架構(gòu)圖
這樣一來,方案既通過監(jiān)測音視頻質(zhì)量,對于錄制過程中出現(xiàn)的如無聲、花屏、黑屏等情況做出及時提醒,減少了人工雙錄過程中的錄制失敗、操作不規(guī)范等情況,使雙錄成功率整體提高30%,大幅改善了客戶購買理財產(chǎn)品的體驗;也能將部分稽查質(zhì)檢工作提前到事中,盡早識別出危險情況,通過告警提前介入,最大程度減少風險產(chǎn)生的經(jīng)濟損失,有助于銀行理財產(chǎn)品及代銷的銷售環(huán)節(jié)監(jiān)管無真空,有效保護消費者的知情權(quán),最終實現(xiàn)“買者自負,賣者盡責”。
據(jù)諧云智能邊緣團隊的AI技術(shù)專家陳雪兒介紹,該方案在語音識別研發(fā)部分用到飛槳語音模型庫PaddleSpeech。她提到,語音識別最終目的是還原雙錄中雙方的對話,呈現(xiàn)出像微信對話框一樣有身份、有順序、有內(nèi)容、有標點的對話效果。分解到具體步驟,開始要對原始的音頻文件進行語音分割,若非雙聲道音頻,則要對說話人進行分類(指用聲音特征區(qū)分說話人身份,即聲紋識別),分類之后再做語音識別,形成文本,做標點恢復(fù),得到最終的完整的對話結(jié)果。
其中,最后一個步驟語音識別部分,諧云研發(fā)團隊運用了飛槳語音模型庫PaddleSpeech里的模型U2Model執(zhí)行語音識別任務(wù)。
之所以選擇飛槳PaddleSpeech模型庫,是因為陳雪兒團隊在研發(fā)雙錄質(zhì)檢項目過程中,察覺到金融行業(yè)對于語音質(zhì)檢有著強烈的需求,在對比市面上其他語音識別的開源產(chǎn)品框架后,他們認為飛槳框架具有明顯優(yōu)勢,主要體現(xiàn)在資料全,為開發(fā)者提供了較多的預(yù)訓(xùn)練模型和對應(yīng)的語音數(shù)據(jù)集,同時模型精度較高。
2022年7月,諧云科技的技術(shù)專家在網(wǎng)絡(luò)平臺上發(fā)布了一篇題為《諧云課堂 | 淺談智能語音技術(shù)在雙錄質(zhì)檢中的應(yīng)用》的文章,百度飛槳的產(chǎn)品經(jīng)理看到這篇文章找到了諧云,雙方建立聯(lián)系并迅速開啟了深度合作。9月,諧云科技和百度飛槳聯(lián)合組織金融直播課介紹雙錄質(zhì)檢解決方案。11月,諧云與百度飛槳達成合作,正式加入飛槳技術(shù)伙伴計劃,雙方繼續(xù)在智慧雙錄、音頻質(zhì)檢等領(lǐng)域積極探索。
03
借助飛槳將語音識別準確率提高到95%
聽說IT圈十個人里有九個是男性開發(fā)者,女生并不多,陳雪兒可以算是這個群體中獨特的存在。
剛開始聊到與AI相關(guān)的話題時,陳雪兒顯得有點兒靦腆。她坦言,自己是比較典型的理科生性格,本科學的是計算機專業(yè),研究生考到浙江大學,主攻方向是人工智能。讀研期間,陳雪兒接觸到了浙江大學SEL實驗室(Soft Engineering Lab,SEL),由此與諧云結(jié)下了不解之緣。
2011年,浙江大學SEL實驗室在浙大計算機學院和超大規(guī)模信息實驗室支持下成立,后來實驗室不斷擴大,到2016 年孵化創(chuàng)立了諧云,目前已經(jīng)發(fā)展到500多人。陳雪兒畢業(yè)后跟隨團隊老師來到了諧云工作,2020年,陳雪兒加入諧云邊緣計算團隊,并成為團隊技術(shù)骨干,她的團隊當時就意識到邊緣計算與 AI 的結(jié)合是未來的趨勢,于是諧云加速布局 “AI +邊緣計算”領(lǐng)域。
引入自研的邊緣計算是雙錄質(zhì)檢系統(tǒng)的一大亮點。陳雪兒進一步解釋到,目前市場上大多數(shù)的IoT解決方案是把算法或應(yīng)用以SDK等方式固化到設(shè)備中, 如果需要更新算法、應(yīng)用,就要替換整個設(shè)備,在邊緣設(shè)備部署智能應(yīng)用的情況下,當面臨應(yīng)用更新迭代以及場景擴充時,這種傳統(tǒng)的方式明顯不夠靈活。
諧云采用云邊協(xié)同的方式,在銀行的數(shù)據(jù)中心部署云端智能管理平臺,能實現(xiàn)快捷方便地在云端直接一鍵部署應(yīng)用,并進行更新迭代。同時,這種邊緣計算模式由于將算力下沉到了邊緣側(cè),使得雙錄過程中的音頻視頻數(shù)據(jù)能就近獲得處理,大大提升了處理的時效性,為雙錄場景下實時處理音頻視頻數(shù)據(jù)處理提供了重要的框架支撐。
雙錄質(zhì)檢系統(tǒng)的研發(fā)過程充滿了挑戰(zhàn)。陳雪兒回憶到,他們最開始以為這只是一個普通的語音識別的任務(wù),后面才發(fā)現(xiàn)雙錄過程對說話人的身份和順序有嚴格的要求,因此說話人分類以及語音分割十分重要。此外,雙錄過程中會出現(xiàn)許多比較難以識別的短句,一些方言口音識別不好也可能造成質(zhì)檢誤報等情況,他們針對這些問題都專門做了模型調(diào)整和優(yōu)化。
在模型調(diào)整方面,諧云的團隊通過“算法和數(shù)據(jù)擴充”的方式,使用飛槳框架,基于飛槳語音模型庫PaddleSpeech對算法模型進行了重新訓(xùn)練,由于PaddleSpeech中U2Model模型采用端到端的語音識別模式,在執(zhí)行語音識別任務(wù)方面相對于傳統(tǒng)方法識別效果更佳、精度較高,經(jīng)過訓(xùn)練后的模型語音識別準確率提高到了95% 。

PaddleSpeech模型庫全景圖
據(jù)了解,諧云的雙錄智能質(zhì)檢系統(tǒng)已在某城商行、某商業(yè)銀行等落地。未來,諧云將繼續(xù)推進更多銀行試點,優(yōu)化雙錄質(zhì)檢解決方案及應(yīng)用場景。陳雪兒談到,她希望雙錄的能力將來可以加入到無人銀行的自助設(shè)備機以及遠程銀行的流程中,為金融行業(yè)數(shù)字化升級和智慧銀行添智賦能。
除了金融雙錄業(yè)務(wù)外,雙錄質(zhì)檢系統(tǒng)還能應(yīng)用到諸多音頻視頻需求的場景中,例如,視頻客服過程中實時監(jiān)測內(nèi)容和質(zhì)量,金融貸款業(yè)務(wù)中監(jiān)控違規(guī)行為等。
隨著金融數(shù)字化轉(zhuǎn)型步伐加快,以人工智能為代表的新技術(shù)正成為助力金融科技變革的一股新力量,除了上述提到的語音模型庫之外,飛槳深度學習開源開放平臺還包含PaddleNLP、PaddleVideo、PaddleDetection等眾多覆蓋不同場景和任務(wù)的模型庫和套件,正落地應(yīng)用到金融業(yè)務(wù)各場景中幫助金融機構(gòu)降險增效和智能化升級。
(舉報)