无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁(yè) > 快訊 > 關(guān)鍵詞  > 創(chuàng)新工場(chǎng)最新資訊  > 正文

    創(chuàng)新工場(chǎng)提出中文分詞和詞性標(biāo)注新模型 可提升工業(yè)應(yīng)用效率

    2020-07-13 19:11 · 稿源: Donews

    DoNews7月13日消息(記者 翟繼茹)13日,記者從創(chuàng)新工場(chǎng)獲悉,其最新提出了中文分詞和詞性標(biāo)注模型,可將外部知識(shí)(信息)融入分詞及詞性標(biāo)注模型,剔除了分詞“噪音”誤導(dǎo),提升了分詞及詞性標(biāo)注效果。在NLP中,中文分詞和詞性標(biāo)注是中文自然語(yǔ)言處理的兩個(gè)基本任務(wù),尤其在工業(yè)場(chǎng)景對(duì)分詞有非常直接的訴求,但當(dāng)前沒(méi)有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。創(chuàng)新工場(chǎng)方面解釋,中文語(yǔ)言因其特殊性,在分詞時(shí)面臨著兩個(gè)主要難點(diǎn)。一是歧義問(wèn)題,由于中文存在大量歧義,一般的分詞工具在切分句子時(shí)可能會(huì)出錯(cuò)。例如,“部分居民生活水平”,其正確的切分應(yīng)為“部分/居民/生活/水平”,但存在“分居”、“民生”等歧義詞。“他從小學(xué)電腦技術(shù)”,正確的分詞是:他/從小/學(xué)/電腦技術(shù),但也存在“小學(xué)”這種歧義詞。

    二是未登錄詞問(wèn)題。未登錄詞指的是不在詞表,或者是模型在訓(xùn)練的過(guò)程中沒(méi)有遇見(jiàn)過(guò)的詞。例如經(jīng)濟(jì)、醫(yī)療、科技等科學(xué)領(lǐng)域的專業(yè)術(shù)語(yǔ)或者社交媒體上的新詞,或者是人名。這類問(wèn)題在跨領(lǐng)域分詞任務(wù)中尤其明顯。因此,在“鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型”的模型中,利用n元組(即一個(gè)由連續(xù)n個(gè)字組成的序列,比如“居民”是一個(gè)2元組,“生活水平”是一個(gè)4元組)提供的每個(gè)字的構(gòu)詞能力,通過(guò)加(降)權(quán)重實(shí)現(xiàn)特定語(yǔ)境下的歧義消解。并通過(guò)非監(jiān)督方法構(gòu)建詞表,實(shí)現(xiàn)對(duì)特定領(lǐng)域的未標(biāo)注文本的利用,進(jìn)而提升對(duì)未登錄詞的識(shí)別。

    在算法實(shí)驗(yàn)中,該模型在5個(gè)數(shù)據(jù)集(MSR、PKU、AS、CityU、CTB6)上的表現(xiàn),均刷新歷史成績(jī)。

    創(chuàng)新工場(chǎng)大灣區(qū)人工智能研究院執(zhí)行院長(zhǎng)宋彥表示,與前人的模型進(jìn)行比較發(fā)現(xiàn),該模型在所有數(shù)據(jù)集上的表現(xiàn)均超過(guò)了之前的工作,“把中文分詞領(lǐng)域廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集上的性能全部刷到了新高?!痹诨陔p通道注意力機(jī)制的分詞及詞性標(biāo)注模型中,將中文分詞和詞性標(biāo)注視作聯(lián)合任務(wù),可一體化完成。模型分別對(duì)自動(dòng)獲取的上下文特征和句法知識(shí)加權(quán),預(yù)測(cè)每個(gè)字的分詞和詞性標(biāo)簽,不同的上下文特征和句法知識(shí)在各自所屬的注意力通道內(nèi)進(jìn)行比較、加權(quán),從而識(shí)別特定語(yǔ)境下不同上下文特征和句法知識(shí)的貢獻(xiàn),從而降低了“噪音”。創(chuàng)新工場(chǎng)介紹,在和斯坦福大學(xué)的 CoreNLP 工具的相比中,該模型有近10個(gè)百分點(diǎn)的提升。

    在場(chǎng)景應(yīng)用上,創(chuàng)新工場(chǎng)主要希望解決工業(yè)場(chǎng)景的突破,宋彥表示,“在工業(yè)場(chǎng)景使用的時(shí)候,跨領(lǐng)域的模型能力是一個(gè)非常直接的訴求。”創(chuàng)新工場(chǎng)介紹,“鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型”和“基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型”兩篇文章,已經(jīng)入選自然語(yǔ)言處理領(lǐng)域(NLP)頂級(jí)學(xué)術(shù)會(huì)議 ACL 2020。(完)

    舉報(bào)

    • 相關(guān)推薦
    • 度小滿積極布局“NLP+金融”領(lǐng)域 提升業(yè)務(wù)創(chuàng)新與風(fēng)控效率

      度小滿在“NLP金融”的技術(shù)落地之路深耕多年,在NLP方面的積累顯得尤為突出。大模型的興起為金融領(lǐng)域的NLP應(yīng)用打開(kāi)了新的想象空間。度小滿的成功實(shí)踐證明了NLP技術(shù)在金融領(lǐng)域的巨大潛力,也為未來(lái)的金融智能化發(fā)展提供了有效方向。

    • Autolabel終結(jié)人工標(biāo)注!AI標(biāo)注比人類標(biāo)注效率高100倍

      一家初創(chuàng)公司refuel上線了一個(gè)AI標(biāo)注數(shù)據(jù)的開(kāi)源工具Autolabel,它能夠利用LLM自動(dòng)對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,大大簡(jiǎn)化了數(shù)據(jù)標(biāo)注流程。Autolabel支持主流的LLM提供商,并可為開(kāi)源和私有模型提供支持。在接下來(lái)的幾個(gè)月中,開(kāi)發(fā)者承諾將向Autolabel添加大量新功能:如支持更多LLM進(jìn)行數(shù)據(jù)標(biāo)注;支持更多標(biāo)注任務(wù),例如總結(jié)等;支持更多的輸入數(shù)據(jù)類型和更高的LLM輸出穩(wěn)健性;讓用戶能夠試驗(yàn)多個(gè)LLM和不同提示的工作流程。

    • GPT-4終結(jié)人工標(biāo)注!AI標(biāo)注比人類標(biāo)注效率高100倍,成本僅1/7

      【新智元導(dǎo)讀】這個(gè)開(kāi)源工具,居然能用GPT-4代替人類去標(biāo)注數(shù)據(jù),效率比人類高了100倍,但成本只有1/7。大模型滿天飛的時(shí)代,AI行業(yè)最缺的是什么?毫無(wú)疑問(wèn)一定是算力。讓用戶能夠試驗(yàn)多個(gè)LLM和不同提示的工作流程。

    • 國(guó)內(nèi)大模型數(shù)據(jù)之困有解了!頭部標(biāo)注廠商打造,專為垂直行業(yè)落地

      大模型落地垂直行業(yè),數(shù)據(jù)已打響第一槍。專門面向垂直大模型的數(shù)據(jù)解決方案來(lái)了——直接幫助通用大模型產(chǎn)業(yè)落地那種。自動(dòng)駕駛讓數(shù)據(jù)標(biāo)注告別人力走向了工具/平臺(tái)標(biāo)注,那么大模型將數(shù)據(jù)標(biāo)注重新迎來(lái)了洗牌時(shí)刻——真正從勞動(dòng)密集型變?yōu)橹R(shí)密集型、技術(shù)密集型。

    • GitHub CEO:軟件行業(yè)仍將人才供不應(yīng)求 AI提升效率非替代人

      人工智能技術(shù)蓬勃發(fā)展,其中生成式人工智能ChatGPT引發(fā)關(guān)注。這類新技術(shù)帶來(lái)的創(chuàng)新,是否會(huì)對(duì)軟件開(kāi)發(fā)行業(yè)形成沖擊?GitHubCEO托馬斯·多姆克日前在TechCrunch活動(dòng)上表示,人工智能和軟件開(kāi)發(fā)現(xiàn)在已經(jīng)密不可分,輔助開(kāi)發(fā)的Copilot系列工具擴(kuò)展至GitHub個(gè)人用戶。人工智能將對(duì)開(kāi)發(fā)模式產(chǎn)生深遠(yuǎn)影響,但真正實(shí)現(xiàn)開(kāi)發(fā)任務(wù)自動(dòng)化還需時(shí)日,仍需要大量人才支持創(chuàng)新應(yīng)用涌現(xiàn)。

    • 創(chuàng)新突破!華爾科技用工業(yè)4.0改造傳統(tǒng)紡織服裝業(yè)

      紡織業(yè)通常被視為傳統(tǒng)的、勞動(dòng)密集型的產(chǎn)業(yè)。近年來(lái),由于逆全球化趨勢(shì),低端紡織生產(chǎn)逐漸離開(kāi)中國(guó),遷往勞動(dòng)力更為廉價(jià)的東南亞國(guó)家。在中國(guó)重要轉(zhuǎn)型期,如何將這些逐漸外流的產(chǎn)業(yè)留在國(guó)內(nèi),已經(jīng)成為國(guó)家面臨的首要戰(zhàn)略問(wèn)題。然而,華爾科技,一家浙江嘉興的隱形行業(yè)巨頭,卻選擇了一條與眾不同的道路。華爾科技不僅堅(jiān)守在中國(guó),聚焦高端棉襪市場(chǎng),還通過(guò)技?

    • 全面的中文大語(yǔ)言模型評(píng)測(cè)來(lái)啦!香港中文大學(xué)研究團(tuán)隊(duì)發(fā)布

      ChatGPT的一聲號(hào)角吹響了2023年全球大語(yǔ)言模型的競(jìng)賽。2023年初以來(lái),來(lái)自工業(yè)界和研究機(jī)構(gòu)的各種大語(yǔ)言模型層出不窮,特別值得一提的是,中文大語(yǔ)言模型也如雨后春筍般,在過(guò)去的半年里不斷涌現(xiàn)?!薄皩?duì)大模型能力認(rèn)知和評(píng)測(cè)的研究本身,也一定會(huì)幫助研究團(tuán)隊(duì)理解和加強(qiáng)持續(xù)提高大模型的能力。

    • 網(wǎng)易丁磊:AI或?qū)⒊蔀橐魳?lè)行業(yè)標(biāo)配 提升音樂(lè)生產(chǎn)效率

      網(wǎng)易公司CEO丁磊在2023中國(guó)數(shù)字音樂(lè)產(chǎn)業(yè)大會(huì)上分享了他對(duì)中國(guó)數(shù)字音樂(lè)產(chǎn)業(yè)未來(lái)發(fā)展的思考和建議。在下一個(gè)十年,中國(guó)數(shù)字音樂(lè)產(chǎn)業(yè)要建立更公平、合理的分配規(guī)則,讓版權(quán)的價(jià)值回歸音樂(lè)本身,讓紅利交還給音樂(lè)人。丁磊介紹了網(wǎng)易云音樂(lè)在AI音樂(lè)領(lǐng)域的前沿布局,并表示網(wǎng)易云音樂(lè)將推動(dòng)這些技術(shù)工具的發(fā)展,來(lái)激發(fā)產(chǎn)業(yè)靈感,服務(wù)產(chǎn)業(yè)創(chuàng)作需要。

    • 英偉達(dá)與 Anyscale 合作:提高大型語(yǔ)言模型和生成式 AI 應(yīng)用的開(kāi)發(fā)效率

      用于生成式AI工具的大型語(yǔ)言模型通常會(huì)極大地增加對(duì)更多處理器的需求,這些處理器通常價(jià)格昂貴且供應(yīng)受限。即使是云資源也不能總是解決企業(yè)試圖擴(kuò)展規(guī)模并利用最新的生成式AI技術(shù)所面臨的問(wèn)題。」Anyscale首席執(zhí)行官兼聯(lián)合創(chuàng)始人RobertNishihara在一份聲明中表示。

    • 模型時(shí)代下的技術(shù)變革:訓(xùn)練、負(fù)載、部署、效率、安全……都遇到了新挑戰(zhàn)?

      隨著互聯(lián)網(wǎng)的快速發(fā)展,AI大模型算的上是當(dāng)前行業(yè)里最“熾手可熱”的技術(shù),大模型是AI領(lǐng)域的重要發(fā)展趨勢(shì)。大模型需要大量的數(shù)據(jù)和計(jì)算資源,同時(shí)也需要強(qiáng)大的應(yīng)用場(chǎng)景支持,對(duì)各行各業(yè)都有深遠(yuǎn)的影響,各廠商開(kāi)始了“千模大戰(zhàn)”。正如戴金權(quán)所說(shuō)的那樣,“英特爾一直堅(jiān)持開(kāi)源開(kāi)放,無(wú)論是從客戶側(cè)的產(chǎn)業(yè)界合作是從學(xué)術(shù)界的高校合作,英特爾都在持續(xù)推動(dòng),相信?

    熱文

    • 3 天
    • 7天