劃重點(diǎn):
?? 提出了一種新的工具 OneChart,旨在解決圖表結(jié)構(gòu)提取中的挑戰(zhàn)。
?? 引入了一種輔助標(biāo)記,通過(guò)它提升了數(shù)值部分的文本輸出。
?? OneChart 在圖表結(jié)構(gòu)提取任務(wù)中取得了最先進(jìn)的性能表現(xiàn)。
站長(zhǎng)之家(ChinaZ.com)4月22日 消息:在圖表解析領(lǐng)域,由于樣式、數(shù)值、文本等的多樣性,存在著重大挑戰(zhàn)。即使是擁有數(shù)十億參數(shù)的先進(jìn)大型視覺(jué) - 語(yǔ)言模型(LVLMs)也難以令人滿意地處理此類任務(wù)。
為了解決這一問(wèn)題,研究團(tuán)隊(duì)提出了一種可靠的工具 OneChart,專門(mén)用于圖表的結(jié)構(gòu)提取。它捕獲了圖表標(biāo)題、來(lái)源和對(duì)齊的數(shù)值數(shù)據(jù)等重要組成部分,并將它們輸出為 Python 字典格式,可以有效地促進(jìn)下游圖表推理任務(wù)。
為了增強(qiáng)文本輸出中的數(shù)值部分,研究團(tuán)隊(duì)引入了一個(gè)輔助標(biāo)記以及一個(gè)額外的解碼器。這個(gè)輔助標(biāo)記允許后續(xù)的文本標(biāo)記通過(guò)因果關(guān)注來(lái)捕獲增強(qiáng)的數(shù)值特征。此外,借助一個(gè)輔助標(biāo)記,他們?cè)O(shè)計(jì)了一個(gè)可靠的檢查機(jī)制,在推斷過(guò)程中通過(guò)提供生成內(nèi)容的自一致性距離來(lái)確保輸出的可信度。
此外,研究團(tuán)隊(duì)還提出了一個(gè)大規(guī)模的圖表轉(zhuǎn)換為字典的基準(zhǔn)測(cè)試。這些圖表涵蓋了廣泛的主題和類型,并包括英語(yǔ)和中文內(nèi)容。實(shí)驗(yàn)證明,盡管只有2億 參數(shù),OneChart 在結(jié)構(gòu)提取方面實(shí)現(xiàn)了最先進(jìn)的性能。在缺乏數(shù)值標(biāo)注的圖表中,與次優(yōu)方法相比,其平均精度(AP)提高了19.1% ~29.4%。作為圖表解析代理,它還為下游的 ChartQA 基準(zhǔn)測(cè)試帶來(lái)了11.2% 的準(zhǔn)確率增益,對(duì)于 LLaVA-1.6和 LLaVA-1.5分別提高了32.6% 和11.2%。
在傳統(tǒng)的圖表問(wèn)答基準(zhǔn)測(cè)試中,通常局限于從圖表中查詢小的、孤立的信息片段,例如單個(gè)數(shù)值,這可能無(wú)法有效地衡量模型提取和理解圖表中呈現(xiàn)的全部數(shù)據(jù)的能力。相比之下,OneChart 旨在建立一個(gè)以結(jié)構(gòu)提?。⊿E)任務(wù)為中心的基準(zhǔn)測(cè)試,直接評(píng)估模型將圖表圖像轉(zhuǎn)換為結(jié)構(gòu)化 Python 字典表示的準(zhǔn)確性。它包括五個(gè)數(shù)據(jù)集部分,其中一個(gè)是 ChartY-zh(2,048個(gè)樣本),其他是 ChartQA-SE(1,509個(gè)樣本)、PlotQA-SE(33,657個(gè)樣本)、ChartX-SE(2,360個(gè)樣本)、ChartY-en(4,000個(gè)樣本)。
研究團(tuán)隊(duì)提出的 OneChart 在圖表結(jié)構(gòu)提取方面取得了令人矚目的成績(jī),為解決圖表解析中的挑戰(zhàn)提供了新的思路和方法。
產(chǎn)品入口:https://top.aibase.com/tool/onechart
(舉報(bào))