站長(zhǎng)之家(ChinaZ.com) 3月21日 消息:智源研究院推出了新一代檢索排序模型 BGE Re-Ranker v2.0,支持100+ 種語(yǔ)言,文本長(zhǎng)度更長(zhǎng),并在多項(xiàng)評(píng)測(cè)中達(dá)到了 SOTA(state-of-the-art)的結(jié)果。該模型是智源團(tuán)隊(duì)在 BGE(BAAI General Embedding)系列基礎(chǔ)上的新嘗試,擴(kuò)展了向量模型的 “文本 + 圖片” 混合檢索能力。
BGE Re-Ranker v2.0采用分層自蒸餾策略優(yōu)化推理效率,通過不同尺寸的模型基座(如 MiniCPM-2B、Gemma-2B、BGE-M3-0.5B)支持多語(yǔ)言檢索能力。此外,該模型還新增了對(duì) “文本 + 圖片” 混合檢索功能的支持,通過引入 CLIP 模型生成的 visual token 實(shí)現(xiàn)。
在性能評(píng)測(cè)方面,BGE Re-Ranker v2.0在英文、中文、多語(yǔ)言主流基準(zhǔn)上取得了優(yōu)秀的檢索效果。例如,在 MTEB、C-MTEB、MIRACL、LLaMA-Index 等評(píng)測(cè)基準(zhǔn)中,BGE Re-Ranker v2.0在重排 BGE-v1.5-large 的 top-100候選集時(shí)表現(xiàn)優(yōu)異,提升了檢索精度。同時(shí),模型在 RAG 場(chǎng)景下也能夠顯著提升各種 embedding 模型的召回結(jié)果,配合 BGE-M3可以獲得最佳的端到端檢索質(zhì)量。
BGE 系列模型的優(yōu)秀性能和通用性也受到了社區(qū)的廣泛關(guān)注,Vespa、Milvus 等主流向量數(shù)據(jù)庫(kù)框架已經(jīng)集成了 BGE-M3模型,為用戶搭建 “三位一體” 的檢索流水線提供了便利。
綜上所述,智源研究院推出的 BGE Re-Ranker v2.0檢索排序模型具有強(qiáng)大的多語(yǔ)言支持、更長(zhǎng)文本長(zhǎng)度、優(yōu)秀的檢索效果和靈活的 “文本 + 圖片” 混合檢索功能,為信息檢索領(lǐng)域帶來了新的利器。
項(xiàng)目地址:
https://github.com/FlagOpen/FlagEmbedding
https://huggingface.co/BAAI
(舉報(bào))