自從ChatGPT橫空出世,大模型技術進入了爆發(fā)式增長階段,引領了人工智能領域的新一輪革新。然而,這種快速發(fā)展背后隱藏著一個不容忽視的問題——高質(zhì)量語料的枯竭正成為制約大模型進步的關鍵瓶頸。
據(jù)《全球人工智能產(chǎn)業(yè)研究報告》2024年版指出,盡管數(shù)據(jù)總量持續(xù)膨脹,但真正能夠用于高質(zhì)量訓練的語料資源卻日益稀缺。報告強調(diào),隨著模型規(guī)模的不斷擴大,對高質(zhì)量、多樣化且無偏見的數(shù)據(jù)需求也隨之激增。然而,現(xiàn)實情況是,能夠滿足這些高標準要求的語料庫卻在減少,這直接影響到模型的性能和可靠性。
知名AI專家、斯坦福大學教授李飛飛在2024年國際人工智能峰會上的演講中也提到了這一點:“我們正處于數(shù)據(jù)饑渴的時代。大模型的發(fā)展速度超過了數(shù)據(jù)生成的速度,特別是高質(zhì)量數(shù)據(jù)的生成。這是我們必須正視并解決的問題。”
此外,谷歌AI負責人Jeff Dean在2024年的一次采訪中表示:“數(shù)據(jù)質(zhì)量是決定大模型能否達到預期性能的關鍵。沒有足夠豐富和多樣的數(shù)據(jù)集,即使是最 先進的算法也無法發(fā)揮其潛力?!?/p>
為應對大模型發(fā)展對高質(zhì)量、大規(guī)模、安全可信語料數(shù)據(jù)資源的需求,保障大模型科研攻關及相關產(chǎn)業(yè)生態(tài)發(fā)展,本次世界人工智能大會期間,大模型語料數(shù)據(jù)聯(lián)盟、上海庫帕思科技有限公司將聯(lián)合上海市數(shù)商協(xié)會、上海市人工智能行業(yè)協(xié)會以“語料筑基,智生時代”主題舉辦語料主題論壇。
誰在給大模型提供高質(zhì)量“燃料”?云測數(shù)據(jù)成功登榜
要解決高質(zhì)量語料的枯竭問題,一方面需要數(shù)據(jù)服務商不斷提升數(shù)據(jù)采集和處理的技術水平。
而目前市面上數(shù)據(jù)服務商在提供高質(zhì)量語料方面可能面臨多種挑戰(zhàn),包括在數(shù)據(jù)層面,面臨數(shù)據(jù)質(zhì)量與多樣性、數(shù)據(jù)隱私與合規(guī)性、數(shù)據(jù)時效性等問題;在技術層面,面臨數(shù)據(jù)采集手段落后,數(shù)據(jù)預處理和標注技術不足等問題;在企業(yè)層面,高質(zhì)量數(shù)據(jù)采集和處理成本高昂,小規(guī)模服務商可能難以承擔,影響其長期運營和數(shù)據(jù)更新頻率。
為幫客戶更好找到優(yōu)秀語料服務商,此次論壇發(fā)布了“2024中國語料風云榜”。
本次榜單分申報、預選、復評、公示、發(fā)布五個階段進行。評選從“好企業(yè)、好產(chǎn)品、好規(guī)則”三個一級指標維度,細分至六個二級指標(經(jīng)營能力、品牌能力、產(chǎn)品能力、創(chuàng)新能力、規(guī)范能力、基礎能力),及16個細化三級指標進行評審。
由來自全國范圍的百家申報企業(yè)中,通過企業(yè)定量申報數(shù)據(jù)篩選出20個較有代表性的企業(yè)入圍(預選);經(jīng)過多位專家評委的定性定量復選評審,按照綜合得分排名1、0的申報企業(yè)上榜,其中云測數(shù)據(jù)成功登榜。
據(jù)了解,云測數(shù)據(jù)之所以能在“2024中國語料風云榜”中脫穎而出,離不開其在數(shù)據(jù)標注平臺能力、面向垂直行業(yè)大模型AI數(shù)據(jù)解決方案、以及智能駕駛AI數(shù)據(jù)解決方案等方面的卓越表現(xiàn)。
在標注平臺方面,云測數(shù)據(jù)打造了新一代人工智能數(shù)據(jù)處理工具,榮獲多個行業(yè)獎項,其平臺支持多類型數(shù)據(jù)處理,極大提升數(shù)據(jù)訓練效率,標注準確度可高達99.99%,為企業(yè)AI應用落地提供了強有力的支持。
在垂直行業(yè)解決方案上,基于深厚的行業(yè)經(jīng)驗,云測數(shù)據(jù)推出定制化AI數(shù)據(jù)解決方案,深度滿足垂直行業(yè)需求,特別在微調(diào)任務中,提供文本、多模態(tài)等數(shù)據(jù)支持,加速AI技術在各領域的應用。尤其是值得一提的是云測數(shù)據(jù)的智能駕駛AI數(shù)據(jù)解決方案。
其自動駕駛解決方案2.0以集成數(shù)據(jù)底座為核心,實現(xiàn)了數(shù)據(jù)閉環(huán)能力、自動標注能力、數(shù)據(jù)管理工具鏈的全方位升級,不僅提升了數(shù)據(jù)標注的質(zhì)量,更大幅提高了數(shù)據(jù)標注、流轉(zhuǎn)的效率,使企業(yè)AI數(shù)據(jù)訓練過程的綜合效率提升至200%。此外,通過支持BEV-transformer標注,云測數(shù)據(jù)強化了自動標注結(jié)果的校驗能力,提升了大模型文本語言標注能力和評測服務能力,為智能駕駛企業(yè)帶來更自然、更智能、更多樣化的人機交互體驗。
解決高質(zhì)量語料短缺問題,還需行業(yè)協(xié)作
解決高質(zhì)量語料的短缺問題,不僅是單個數(shù)據(jù)服務商的責任,而是需要整個行業(yè)乃至跨行業(yè)間的共同努力。
一來,數(shù)據(jù)的生成和標注是一個復雜而耗時的過程,涉及到技術、倫理、法律法規(guī)等多個層面。單一實體,無論其技術多么先進,都難以獨自應對數(shù)據(jù)收集、清洗、標注、存儲和分發(fā)等各個環(huán)節(jié)的挑戰(zhàn)。因此,行業(yè)內(nèi)需要建立共享機制,促進數(shù)據(jù)資源的有效流通和利用,避免重復勞動,提高整體效率。
二來,高質(zhì)量語料的定義不僅僅是數(shù)據(jù)的量大,更重要的是數(shù)據(jù)的多樣性和代表性。這要求數(shù)據(jù)覆蓋各種場景、語言、文化和專業(yè)領域,單一服務商往往難以覆蓋如此廣泛的范圍。只有通過行業(yè)內(nèi)的合作,才能匯集來自不同背景和領域的數(shù)據(jù),確保訓練出的模型具有更強的泛化能力和公平性。
在本次論壇上,50余家單位共同發(fā)起了“語料生態(tài)服務大模型可持續(xù)發(fā)展倡議”,旨在打造一個資源共享、互利共贏、國際融通的語料生態(tài)圈,進一步強化語料生態(tài)全產(chǎn)業(yè)鏈的交流合作,營造有利于中國大模型產(chǎn)業(yè)生態(tài)健康發(fā)展的環(huán)境,其中云測數(shù)據(jù)也位列其中。
在行業(yè)端,云測數(shù)據(jù)一直在積極推動完善AI數(shù)據(jù)服務生態(tài)發(fā)展,通過豐富成熟的數(shù)據(jù)服務與策略積累,聯(lián)合AI領域各大代表企業(yè)積極推動行業(yè)相關標準體系化的建設,圍繞數(shù)據(jù)生產(chǎn)流程、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)交付實施等能力形成多維度評價指標,為行業(yè)的高速、健康發(fā)展貢獻力量,助力提升數(shù)據(jù)產(chǎn)品質(zhì)量和交付服務水平。
在助力AI數(shù)據(jù)標準化體系建設進程中,云測數(shù)據(jù)將成熟的技術、服務等經(jīng)驗總結(jié),先后參與編制了《智能網(wǎng)聯(lián)汽車激光雷達點云數(shù)據(jù)標注要求及方法》、《智能網(wǎng)聯(lián)汽車場景數(shù)據(jù)圖像標注要求與方法》、《人工智能研發(fā)運營一體化(Model/MLOps)能力成熟度模型第 一部分:開發(fā)管理》、《人工智能研發(fā)運營一體化(Model/MLOps)能力成熟度模型 第二部分:模型交付》、《面向人工智能的數(shù)據(jù)交付服務能力成熟度模型》、《人工智能數(shù)據(jù)集質(zhì)量管理能力評估方法》等產(chǎn)業(yè)相關標準,助力人工智能數(shù)據(jù)服務在落地領域規(guī)范化發(fā)展。
解決高質(zhì)量語料的短缺問題,不能一蹴而就,需要整個行業(yè)從數(shù)據(jù)資源共享、多樣性保障、技術標準制定、技術創(chuàng)新和人才培養(yǎng)等方面共同努力,形成一個健康、開放、合作的數(shù)據(jù)生態(tài)系統(tǒng)。只有這樣,才能確保AI模型的持續(xù)進步和人工智能產(chǎn)業(yè)的長遠發(fā)展。
(推廣)