站長(zhǎng)之家(ChinaZ.com)11月15日 消息:Tarsier是一個(gè)開(kāi)源的簡(jiǎn)單實(shí)用的多模式網(wǎng)絡(luò)代理工具庫(kù),它提供了視覺(jué)標(biāo)記可交互元素、頁(yè)面截圖OCR識(shí)別、文本元素標(biāo)記等功能,為網(wǎng)頁(yè)交互代理提供了更深層次的視覺(jué)和文本處理能力。
該工具庫(kù)通過(guò)在頁(yè)面上使用方括號(hào)+id的方式對(duì)可交互元素進(jìn)行視覺(jué)標(biāo)記,提供了元素和id之間的映射,使得GPT-4(V)可以對(duì)這些元素進(jìn)行操作。
項(xiàng)目地址:https://github.com/reworkd/tarsier
Tarsier還提供了OCR工具,可以將頁(yè)面截圖轉(zhuǎn)換為L(zhǎng)LM可理解的字符串,為沒(méi)有視覺(jué)能力的LLM提供了更深層次的交互能力。
此外,Tarsier還提供了一些示例代理,如自主LangChain網(wǎng)絡(luò)代理和自主LlamaIndex網(wǎng)絡(luò)代理,可以演示Tarsier的使用方式。
總之,Tarsier通過(guò)提供視覺(jué)標(biāo)記、OCR識(shí)別等功能,為網(wǎng)頁(yè)交互代理提供了更豐富的交互能力,為現(xiàn)有的視覺(jué)語(yǔ)言模型的性能問(wèn)題提供了解決方案。
(舉報(bào))