站長之家(ChinaZ.com)9月21日 消息:近日,智源研究院聯(lián)合中科院計算所、南洋理工大學(xué)(新加坡)、電子科技大學(xué)(成都)、哈爾濱工業(yè)大學(xué)(深圳)的研究團隊共同提出了一種「生長策略」(growth strategy),以解決大模型算力成本極高的問題。
研究團隊基于「生長策略」逐步構(gòu)建了一個具有1010億參數(shù)的FLM-101B大模型。實際訓(xùn)練結(jié)果顯示,只需約10萬美元(約70萬人民幣)的算力成本,就能成功訓(xùn)練出一個效果和GPT-3、GLM-130B可比的千億大模型。
「生長策略」的核心思想是讓模型在訓(xùn)練過程中的參數(shù)量可以隨著訓(xùn)練進行逐步擴展,從較小的參數(shù)規(guī)模擴展到更大的參數(shù)規(guī)模。研究團隊利用這種策略成功地訓(xùn)練出了 FLM-101B 大模型,并且通過評測發(fā)現(xiàn),該模型在知識能力和智能水平方面具有競爭力。
此外,研究團隊還提出了一種基于 IQ 的評測方法,以更全面、客觀地評估大模型的智力水平。他們從四個維度對大模型進行了 IQ 測試:符號評測、規(guī)則理解、模式挖掘和抗干擾評測。實驗結(jié)果顯示,F(xiàn)LM-101B 在這些評測任務(wù)上表現(xiàn)出了非常好的能力。
FLM-101B模型地址:
https://huggingface.co/CofeAI/FLM-101B
(舉報)