站長之家(ChinaZ.com) 3月29日 消息:通義千問團隊推出了 Qwen 系列的首個 MoE 模型,命名為 Qwen1.5-MoE-A2.7B。這個模型只有27億個激活參數(shù),但性能卻與當(dāng)前最先進的70億參數(shù)模型相媲美。與 Qwen1.5-7B 相比,Qwen1.5-MoE-A2.7B 只有20億個非嵌入?yún)?shù),大約是原模型大小的三分之一。此外,相較于 Qwen1.5-7B,Qwen1.5-MoE-A2.7B 的訓(xùn)練成本降低了75%,推理速度提升了1.74倍。
Qwen1.5-MoE 模型采用了特別設(shè)計的 MoE 架構(gòu)。與傳統(tǒng) MoE 方法不同的是,Qwen1.5-MoE 使用了64個 finegrained experts,并引入了新的 routing 機制 DeepSeek-MoE 和 DBRX。這種 finegrained experts 設(shè)計的目的是在不增加參數(shù)數(shù)量的情況下生成更多 expert。Qwen1.5-MoE 模型在訓(xùn)練成本和推理效率方面表現(xiàn)出色,性能接近最先進的7B 模型。
Qwen1.5-MoE-A2.7B 模型擁有14.3億激活參數(shù)和2億非嵌入?yún)?shù),訓(xùn)練成本降低了75%。在實驗中,使用單個 NVIDIA A100-80G GPU 測試時,Qwen1.5-MoE-A2.7B 的推理速度提高了約1.74倍。Qwen1.5-MoE 模型已在 ModelScope 社區(qū)開源,可直接下載使用。
除了性能和效率,Qwen1.5-MoE 模型還將持續(xù)更新對第三方框架的支持,包括 llama.cpp、MLX 等。
總體來說,Qwen1.5-MoE 模型在性能、效率和推理速度方面取得了顯著的優(yōu)勢,是推理訓(xùn)練的最佳實踐之一。
Qwen1.5-MoE體驗鏈接:
https://modelscope.cn/studios/qwen/qwen1.5-MoE-A2.7B-Chat-GPTQ-Int4-demo
(舉報)