國(guó)產(chǎn)GPU加速來(lái)襲!摩爾線程開源vLLM-MUSA
摩爾線程推出了基于其全功能GPU的開源大語(yǔ)言模型推理框架vLLM的MUSA移植版本。
vLLM是一個(gè)廣受歡迎的開源大模型推理框架,它提供了創(chuàng)新的內(nèi)存管理、快速模型執(zhí)行和分布式推理支持,顯著提高了大語(yǔ)言模型的推理性能。
摩爾線程將vLLM移植到其GPU后端,使其完全開源,允許開發(fā)者升級(jí)和二次開發(fā)。
得益于摩爾線程MUSA架構(gòu)的先進(jìn)性和軟件棧與CUDA的良好兼容性,用戶可以通過(guò)MUSIFY自動(dòng)代碼轉(zhuǎn)換工具輕松地將現(xiàn)有CUDA代碼遷移到MUSA平臺(tái)。
此外,CUDA相關(guān)庫(kù)的調(diào)用可以快速替換為MUSA加速庫(kù),例如muDNN、MCCL和muBLAS。
摩爾線程通過(guò)MUSA軟件棧對(duì)CUDA軟件棧接口進(jìn)行兼容,從而顯著提高了應(yīng)用移植效率,縮短了開發(fā)周期。
摩爾線程vLLM-MUSA開源地址:
https://github.com/MooreThreads/vLLM_musa
(舉報(bào))