DoNews7月13日消息(記者 翟繼茹)13日,記者從創(chuàng)新工場(chǎng)獲悉,其最新提出了中文分詞和詞性標(biāo)注模型,可將外部知識(shí)(信息)融入分詞及詞性標(biāo)注模型,剔除了分詞“噪音”誤導(dǎo),提升了分詞及詞性標(biāo)注效果。在NLP中,中文分詞和詞性標(biāo)注是中文自然語(yǔ)言處理的兩個(gè)基本任務(wù),尤其在工業(yè)場(chǎng)景對(duì)分詞有非常直接的訴求,但當(dāng)前沒(méi)有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。創(chuàng)新工場(chǎng)方面解釋,中文語(yǔ)言因其特殊性,在分詞時(shí)面臨著兩個(gè)主要難點(diǎn)。一是歧義問(wèn)題,由于中文存在大量歧義,一般的分詞工具在切分句子時(shí)可能會(huì)出錯(cuò)。例如,“部分居民生活水平”,其正確的切分應(yīng)為“部分/居民/生活/水平”,但存在“分居”、“民生”等歧義詞。“他從小學(xué)電腦技術(shù)”,正確的分詞是:他/從小/學(xué)/電腦技術(shù),但也存在“小學(xué)”這種歧義詞。
二是未登錄詞問(wèn)題。未登錄詞指的是不在詞表,或者是模型在訓(xùn)練的過(guò)程中沒(méi)有遇見(jiàn)過(guò)的詞。例如經(jīng)濟(jì)、醫(yī)療、科技等科學(xué)領(lǐng)域的專業(yè)術(shù)語(yǔ)或者社交媒體上的新詞,或者是人名。這類問(wèn)題在跨領(lǐng)域分詞任務(wù)中尤其明顯。因此,在“鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型”的模型中,利用n元組(即一個(gè)由連續(xù)n個(gè)字組成的序列,比如“居民”是一個(gè)2元組,“生活水平”是一個(gè)4元組)提供的每個(gè)字的構(gòu)詞能力,通過(guò)加(降)權(quán)重實(shí)現(xiàn)特定語(yǔ)境下的歧義消解。并通過(guò)非監(jiān)督方法構(gòu)建詞表,實(shí)現(xiàn)對(duì)特定領(lǐng)域的未標(biāo)注文本的利用,進(jìn)而提升對(duì)未登錄詞的識(shí)別。
在算法實(shí)驗(yàn)中,該模型在5個(gè)數(shù)據(jù)集(MSR、PKU、AS、CityU、CTB6)上的表現(xiàn),均刷新歷史成績(jī)。
創(chuàng)新工場(chǎng)大灣區(qū)人工智能研究院執(zhí)行院長(zhǎng)宋彥表示,與前人的模型進(jìn)行比較發(fā)現(xiàn),該模型在所有數(shù)據(jù)集上的表現(xiàn)均超過(guò)了之前的工作,“把中文分詞領(lǐng)域廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集上的性能全部刷到了新高?!痹诨陔p通道注意力機(jī)制的分詞及詞性標(biāo)注模型中,將中文分詞和詞性標(biāo)注視作聯(lián)合任務(wù),可一體化完成。模型分別對(duì)自動(dòng)獲取的上下文特征和句法知識(shí)加權(quán),預(yù)測(cè)每個(gè)字的分詞和詞性標(biāo)簽,不同的上下文特征和句法知識(shí)在各自所屬的注意力通道內(nèi)進(jìn)行比較、加權(quán),從而識(shí)別特定語(yǔ)境下不同上下文特征和句法知識(shí)的貢獻(xiàn),從而降低了“噪音”。創(chuàng)新工場(chǎng)介紹,在和斯坦福大學(xué)的 CoreNLP 工具的相比中,該模型有近10個(gè)百分點(diǎn)的提升。
在場(chǎng)景應(yīng)用上,創(chuàng)新工場(chǎng)主要希望解決工業(yè)場(chǎng)景的突破,宋彥表示,“在工業(yè)場(chǎng)景使用的時(shí)候,跨領(lǐng)域的模型能力是一個(gè)非常直接的訴求。”創(chuàng)新工場(chǎng)介紹,“鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型”和“基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型”兩篇文章,已經(jīng)入選自然語(yǔ)言處理領(lǐng)域(NLP)頂級(jí)學(xué)術(shù)會(huì)議 ACL 2020。(完)
(舉報(bào))