站長之家(ChinaZ.com) 6月28日消息:MLPerf 基準(zhǔn)測(cè)試是評(píng)估系統(tǒng)在一系列人工智能工作負(fù)載下的性能表現(xiàn)的重要指標(biāo)。人工智能正在快速發(fā)展,生成式人工智能工作負(fù)載日益突出,而 MLPerf 也在與行業(yè)一起不斷進(jìn)化。其最新的 MLPerf Training v3.0 基準(zhǔn)套件引入了推薦引擎和大型語言模型(LLM)訓(xùn)練的新測(cè)試。
MLCommons 負(fù)責(zé)監(jiān)督 MLPerf,并于今天發(fā)布了最新的 MLPerf 基準(zhǔn)測(cè)試結(jié)果。英偉達(dá) H100 幾乎在每個(gè)類別中占據(jù)主導(dǎo)地位,并成為新 LLM 基準(zhǔn)測(cè)試中唯一使用的 GPU。
在 LLM 和 BERT 自然語言處理(NLP)基準(zhǔn)測(cè)試中,英偉達(dá)和 Inflection AI 共同開發(fā)的系統(tǒng)在 CoreWeave 上表現(xiàn)最佳。這家云服務(wù)提供商專注于大規(guī)模 GPU 加速工作負(fù)載??梢哉f,這些數(shù)據(jù)令人印象深刻。
英偉達(dá) H100 在每個(gè)基準(zhǔn)測(cè)試中均刷新了最佳記錄
MLPerf LLM 基準(zhǔn)測(cè)試基于 OpenAI 的 GPT-3 LLM,訓(xùn)練了 1750 億個(gè)參數(shù)(GPT-3 是該基準(zhǔn)測(cè)試創(chuàng)建時(shí)最新一代的 GPT)。訓(xùn)練 LLM 是一項(xiàng)計(jì)算密集型任務(wù),Lambda Labs 估計(jì),訓(xùn)練 1750 億個(gè)參數(shù)的 GPT-3 需要約 3.14E23 次計(jì)算浮點(diǎn)運(yùn)算(FLOPS)。這需要大量昂貴的計(jì)算資源。
英偉達(dá)專為這些工作負(fù)載設(shè)計(jì)了 H100 Tensor Core GPU,并迅速成為訓(xùn)練大型語言模型中最受歡迎的加速器之一。這是有充分理由的。英偉達(dá)在 H100 中引入了新的 Transformer 引擎,專門用于加速 Transformer 模型的訓(xùn)練和推斷(英偉達(dá)在一篇博文中對(duì)該設(shè)備的全部功能進(jìn)行了出色的描述)。Transformer 是生成式人工智能的核心,因此預(yù)期 H100 的性能應(yīng)優(yōu)于以前的一代。英偉達(dá)表示,H100 上的所有內(nèi)容都更快,新的 Transformer 引擎將訓(xùn)練加速高達(dá) 6 倍。
在今天的結(jié)果中,90 個(gè)系統(tǒng)中有 82 個(gè)使用了英偉達(dá)加速器(除了 18 個(gè)非英偉達(dá)系統(tǒng)中的一個(gè)外,其余所有系統(tǒng)均由英特爾提交)。將近一半的結(jié)果基于英偉達(dá) H100 Tensor Core GPU。英偉達(dá) H100 在 MLPerf 訓(xùn)練和推斷基準(zhǔn)測(cè)試中創(chuàng)下了記錄,而英偉達(dá)的 A100 和 L4 GPU 提供了出色的推斷結(jié)果。
更深入地了解指標(biāo),英偉達(dá) H100 Tensor Core GPU 的每個(gè)加速器 LLM 訓(xùn)練時(shí)間為 548 小時(shí)(約 23 天)。該 GPU 在每個(gè)基準(zhǔn)測(cè)試中也刷新了每個(gè)加速器的記錄。
大規(guī)模 LLM:英偉達(dá) + Inflection AI + CoreWeave
查看每個(gè)加速器的結(jié)果很有趣,但現(xiàn)實(shí)世界的生產(chǎn)工作負(fù)載很少使用單個(gè)加速器構(gòu)建。在具有多個(gè) GPU 的集群系統(tǒng)中,會(huì)出現(xiàn)規(guī)模效益,英偉達(dá)從一開始就考慮到了這一點(diǎn),其持續(xù)關(guān)注使用其 NVLink 技術(shù)進(jìn)行 GPU 間通信的規(guī)模化 GPU 集群。了解實(shí)際性能需要從系統(tǒng)級(jí)別來看結(jié)果。
英偉達(dá)和 Inflection AI 共同開發(fā)了一個(gè)基于英偉達(dá) H100 Tensor Core GPU 的大規(guī)模 GPU 集群系統(tǒng),由 Coreweave 托管和測(cè)試。該系統(tǒng)組合了 3,584 個(gè)英偉達(dá) H100 加速器和 896 個(gè)第四代英特爾 Xeon Platinum 8462Y+處理器。結(jié)果令人震撼,在測(cè)試的每個(gè)工作負(fù)載上都創(chuàng)下了新紀(jì)錄。
深入研究 LLM 基準(zhǔn)測(cè)試展示了英偉達(dá)技術(shù)的全部能力。這個(gè)由 3,854 個(gè) GPU 組成的集群在大規(guī)?;?GPT-3 的訓(xùn)練基準(zhǔn)測(cè)試中完成時(shí)間不到 11 分鐘,而只有一半數(shù)量的 GPU 的配置則需要將近 24 分鐘,展示了英偉達(dá) H100 GPU 的非線性可擴(kuò)展?jié)摿Α?/strong>
英特爾是唯一另一個(gè)報(bào)告 LLM 基準(zhǔn)測(cè)試結(jié)果的實(shí)體。英特爾的系統(tǒng)結(jié)合了 64-96 個(gè)英特爾 Xeon Platinum 8380 處理器和 256-389 個(gè)英特爾 Habana Gaudi2 加速器。英特爾報(bào)告了其最高配置的 LLM 訓(xùn)練時(shí)間為 311 分鐘。
分析師觀點(diǎn)
基準(zhǔn)測(cè)試提供了系統(tǒng)的時(shí)點(diǎn)比較。幾乎所有提交的結(jié)果都基于英偉達(dá)加速器,這表明英偉達(dá)在人工智能生態(tài)系統(tǒng)中的持續(xù)主導(dǎo)地位。盡管這種主導(dǎo)地位在很大程度上基于其加速器技術(shù),但英偉達(dá)在生態(tài)系統(tǒng)中的黏性仍然在很大程度上受到 AI 社區(qū)對(duì)其軟件的依賴。
英偉達(dá)不僅提供底層的 CUDA 庫和工具,幾乎所有 AI 框架都是基于它們開發(fā)的,該公司還在軟件層面上提供全套的 AI 工具和解決方案。除了支持 AI 開發(fā)人員外,英偉達(dá)還不斷投資于管理工作負(fù)載和模型的企業(yè)級(jí)工具。英偉達(dá)在行業(yè)中在軟件方面的投資是無與倫比的,并將在可預(yù)見的未來繼續(xù)保持領(lǐng)先地位。雖然會(huì)有非英偉達(dá)的訓(xùn)練解決方案出現(xiàn),但它們將繼續(xù)是例外。
從 MLPerf 結(jié)果中得出的最重要結(jié)論不僅僅是英偉達(dá)的新一代 H100 Tensor Core 加速器的原始性能,而是在云中運(yùn)行 AI 訓(xùn)練工作負(fù)載的強(qiáng)大和高效性。構(gòu)建任何規(guī)模的訓(xùn)練集群都是一項(xiàng)昂貴且復(fù)雜的任務(wù)。盡管英偉達(dá)沒有公布 H100 加速器的定價(jià),但估計(jì)每個(gè)加速器的價(jià)格在 3 萬至 4 萬美元之間。CoreWeave 提供每小時(shí) 2.23 美元的租用服務(wù),可以提供與現(xiàn)場(chǎng)實(shí)際安裝的相媲美的訓(xùn)練結(jié)果(此外,值得一提的是,目前還無法從任何頂級(jí)公共云提供商那里獲得 H100 的使用時(shí)間;目前沒有 CSP 提供基于 H100 的實(shí)例)。
人工智能正在改變我們與技術(shù)互動(dòng)的方式,改變企業(yè)的運(yùn)作方式以及我們理解周圍數(shù)據(jù)的方式。英偉達(dá)處于這場(chǎng)革命的中心,迅速擴(kuò)大其在幾乎所有數(shù)據(jù)中心元素中的存在。英偉達(dá)不再只是我們成長過程中的游戲圖形公司,而是迅速成為我們集體未來的關(guān)鍵推動(dòng)者。
(舉報(bào))