站長之家(ChinaZ.com)1月31日 消息:阿里巴巴的多模態(tài)模型Qwen-VL經(jīng)過升級更新,推出了Qwen-VL-Plus和Qwen-VL-Max版本。這兩個版本在多個文本-圖像多模態(tài)任務(wù)上與Gemini Ultra和GPT-4V相當。
試用地址:https://huggingface.co/spaces/Qwen/Qwen-VL-Max
Qwen-VL-Max在中文問答和中文文本理解任務(wù)上超越了GPT-4V和Gemini,同時在圖像相關(guān)推理能力和識別、提取和分析圖像細節(jié)上都有顯著提升。這兩個版本還支持處理高達一百萬像素的高清圖像以及各種寬高比的圖像。
Qwen-VL-Plus針對細節(jié)識別和文本識別能力進行了顯著升級,支持超高像素分辨率和任意寬高比的圖像輸入,在廣泛的視覺任務(wù)上提供了顯著的性能提升。
而Qwen-VL-Max則在視覺推理和指令跟隨能力方面有所改進,提供了更高級別的視覺感知和認知理解,在更廣泛的復(fù)雜任務(wù)上提供了最優(yōu)性能。這兩個版本甚至能識別Gif圖,展現(xiàn)出了強大的識別能力。
(舉報)