要點(diǎn):
浦語(yǔ)靈筆是基于書(shū)生·浦語(yǔ)大語(yǔ)言模型的多模態(tài)創(chuàng)作模型,能夠接受視覺(jué)和語(yǔ)言輸入,生成圖文并茂的文章。
浦語(yǔ)靈筆具有強(qiáng)大的多模態(tài)理解能力,能夠進(jìn)行流利的中英文圖文對(duì)話,準(zhǔn)確識(shí)別圖像內(nèi)容,尤其是中國(guó)文化相關(guān)的知識(shí)。
浦語(yǔ)靈筆已開(kāi)源其中的智能創(chuàng)作和對(duì)話及多任務(wù)預(yù)訓(xùn)練版本,并提供免費(fèi)商用,支持多種類型文章的圖文生成。
站長(zhǎng)之家(ChinaZ.com)10月10日 消息:上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)近日推出了首個(gè)圖文混合創(chuàng)作大模型書(shū)生·浦語(yǔ)靈筆(InternLM-XComposer),該模型能夠根據(jù)用戶提供的主題或圖片,自動(dòng)創(chuàng)作出圖文并茂的文章,為大模型落地應(yīng)用提供更多可能。
浦語(yǔ)靈筆是基于書(shū)生·浦語(yǔ)大語(yǔ)言模型(InternLM)的多模態(tài)擴(kuò)展,書(shū)生·浦語(yǔ)是上海AI實(shí)驗(yàn)室今年7月以來(lái)陸續(xù)開(kāi)源的7B(InterLM-7B)及20B(InternLM-20B)版本的大語(yǔ)言模型,為業(yè)界提供了完整的大模型研發(fā)與應(yīng)用基座,以及全鏈條工具體系。
項(xiàng)目地址:https://github.com/InternLM/InternLM-XComposer
浦語(yǔ)靈筆不僅能夠進(jìn)行流利的中英文圖文對(duì)話,準(zhǔn)確理解圖像內(nèi)容,還具備了圖文并茂文章創(chuàng)作的全新能力。
用戶僅需提供主題或圖片,便可一鍵生成涵蓋歷史沿革、主要景點(diǎn)文物介紹等方面的長(zhǎng)篇文章,并在適當(dāng)位置自動(dòng)插入與文字信息對(duì)應(yīng)的圖片。除自動(dòng)配圖能力外,浦語(yǔ)靈筆還提供了配圖推薦和更換功能,根據(jù)用戶實(shí)際需求定制圖文內(nèi)容。
目前,浦語(yǔ)靈筆已支持科普文稿、營(yíng)銷廣告、新聞稿件、影視評(píng)論、生活指南等類型文章的圖文并茂生成,并將逐漸開(kāi)放更多能力,適應(yīng)更多樣化任務(wù)需求。
浦語(yǔ)靈筆為圖文文章創(chuàng)作設(shè)計(jì)了“三步走”的算法流程。首先,根據(jù)用戶輸入的主題或圖片,浦語(yǔ)靈筆利用其強(qiáng)大的寫作能力,創(chuàng)作出文采斐然的文章。其次,浦語(yǔ)靈筆自動(dòng)分析文章內(nèi)容和段落布局,規(guī)劃需要插圖圖片的位置,并生成對(duì)圖片內(nèi)容需求的描述。最后,采用從粗篩到精選的配圖策略,利用多模態(tài)大模型強(qiáng)大的圖像理解能力,從海量圖庫(kù)中選擇出最符合文章上下文內(nèi)容和整體圖像風(fēng)格的圖片,完成文章的自動(dòng)配圖。
浦語(yǔ)靈筆出色的圖文創(chuàng)作效果,得益于其多任務(wù)預(yù)訓(xùn)練模型(InternLM-XComposer-VL-7B)強(qiáng)大的多模態(tài)理解能力。
研究人員采用5個(gè)主流的多模態(tài)大模型評(píng)測(cè)對(duì)InternLM-XComposer-VL-7B進(jìn)行了詳細(xì)測(cè)試,包括MME Benchmark、MMBench、MMBench-CN、Seed-Bench和CCBench等中英文評(píng)測(cè)。
評(píng)測(cè)結(jié)果顯示,在上述5項(xiàng)評(píng)測(cè)中,浦語(yǔ)靈筆均體現(xiàn)出卓越性能,尤其是在中國(guó)文化理解方面,表現(xiàn)出深厚的知識(shí)積淀。
浦語(yǔ)靈筆現(xiàn)已開(kāi)源,同時(shí)上線GitHub、Hugging Face及魔搭社區(qū)(ModelScope),歡迎開(kāi)發(fā)者下載試用。
(舉報(bào))