近日,上海合合信息科技股份有限公司(簡(jiǎn)稱“合合信息”)TextIn“大模型加速器 2.0”版本正式上線,憑借其多維度升級(jí),為降低大模型“幻覺”風(fēng)險(xiǎn)、推動(dòng)大模型準(zhǔn)確應(yīng)用提供了強(qiáng)大助力。
訓(xùn)練數(shù)據(jù)是影響大模型“認(rèn)知能力”的關(guān)鍵,合合信息“大模型加速器 2.0”基于領(lǐng)先的智能文檔處理技術(shù),從數(shù)據(jù)源頭入手,對(duì)復(fù)雜文檔的版式、布局和元素進(jìn)行準(zhǔn)確解析及結(jié)構(gòu)化處理,讓大模型在與人類溝通中“更靠譜”。
(“大模型加速器 2.0”文檔解析引擎助力知識(shí)庫(kù)理解手寫筆記示意圖)
升級(jí)后的“大模型加速器”在多方面實(shí)現(xiàn)新突破。在復(fù)雜版面理解、表格及圖表處理、內(nèi)容溯源等能力上表現(xiàn)卓越。它能準(zhǔn)確識(shí)別上千種文檔中的跨頁(yè)表格、合并單元格、密集表格、手寫字符及公式,解析穩(wěn)定率達(dá)99.99%,單頁(yè)處理耗時(shí)較行業(yè)可比產(chǎn)品降低超30%;還可“逆還原”十余種專業(yè)圖表數(shù)據(jù),轉(zhuǎn)化為大模型可理解的結(jié)構(gòu)化數(shù)據(jù)。此外,新增知識(shí)庫(kù)系列開源組件,助力醫(yī)療、制造、教育等行業(yè)開發(fā)者構(gòu)建個(gè)性化知識(shí)庫(kù)。
在教育領(lǐng)域,大模型需要不斷“吸收”正確的專業(yè)知識(shí)才能應(yīng)對(duì)實(shí)際應(yīng)用問題。賽爾教育科技發(fā)展有限公司CTO楊林提到,教育行業(yè)文檔格式多樣,包含表格、公式、手寫字符、多語(yǔ)言文字等信息,有效準(zhǔn)確提取文本信息并非易事。合合信息文檔解析技術(shù)為教育行業(yè)大模型建設(shè)提供了專業(yè)支持,在“大模型加速器”的支持下,合合信息與賽爾教育共同協(xié)作,提升大模型對(duì)復(fù)雜版面、元素的“理解力”,減少AI“幻覺”現(xiàn)象。其圖表解析模塊可智能提取多種圖表中的關(guān)鍵數(shù)據(jù)點(diǎn)等,還原為完整的Excel表格數(shù)據(jù),作用于教育行業(yè)大模型微調(diào)、學(xué)科知識(shí)庫(kù)建設(shè)、智能審閱等環(huán)節(jié)。
(知識(shí)庫(kù)對(duì)財(cái)報(bào)數(shù)據(jù)所在表格進(jìn)行準(zhǔn)確溯源)
在金融行業(yè),多家券商機(jī)構(gòu)接入大模型以提高工作效率。“大模型加速器 2.0”上線知識(shí)庫(kù)產(chǎn)品組件,支持復(fù)雜文檔的智能問答、總結(jié)與檢索。為保障行業(yè)“安心”使用大模型,知識(shí)庫(kù)產(chǎn)品推出溯源功能,通過(guò)在文件中標(biāo)記空間位置信息,實(shí)現(xiàn)對(duì)句子、段落的比較準(zhǔn)確溯源。以財(cái)務(wù)分析為例,券商分析師可利用溯源功能定位原表格,對(duì)信息進(jìn)行復(fù)核,防止錯(cuò)誤、遺漏。
目前,知識(shí)庫(kù)組件已面向開發(fā)者開源,此前合合信息已開源智能文檔處理“百寶箱”系列產(chǎn)品,未來(lái)“大模型加速器”將持續(xù)優(yōu)化迭代,助力大模型在各行各業(yè)中“百花齊放”。
(推廣)