站長之家(ChinaZ.com)2月23日 消息:智源研究院近期提出了一項新技術,通過數(shù)據(jù)濃縮技術獲得高質(zhì)量訓練數(shù)據(jù),從而提升多模態(tài)小模型的性能。
具體來說,他們將 LAION-2B 壓縮成2M 核心集,得到更豐富的預訓練數(shù)據(jù),同時精選數(shù)據(jù)集進行指令微調(diào),訓練出性能強勁的小模型。這一技術路線帶來了新一代多模態(tài)小模型 Bunny 系列,其中 Bunny-3B 表現(xiàn)出色,在多個基準上超越了其他近期熱門模型,與大模型相媲美。
Bunny 模型采用經(jīng)典的 Encoder+Projector+LLM 架構(gòu),支持多種 Vision Encoders 和 LLM Backbone,提供可擴展的組合框架。在各類多模態(tài)模型評估中,Bunny 表現(xiàn)優(yōu)異,甚至在一些指標上超越了13B 大模型。該技術的關鍵在于數(shù)據(jù)驅(qū)動的多模態(tài)模型研究,為多模態(tài)大模型輕量化提供了新思路和工具。
總的來說,通過數(shù)據(jù)濃縮技術獲得高質(zhì)量訓練數(shù)據(jù),Bunny 系列小模型在多模態(tài)任務上表現(xiàn)優(yōu)異,將促進大模型技術的發(fā)展和普及。
項目地址:https://github.com/BAAI-DCAI/Bunny
模型下載地址:https://huggingface.co/BAAI/bunny-phi-2-siglip-lora
在線Demo:https://bunny.dataoptim.org
(舉報)