无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > OpenLM最新資訊  > 正文

    OpenLM:一個(gè)專為中等規(guī)模語言模型設(shè)計(jì)的模型訓(xùn)練庫

    2023-09-28 14:30 · 稿源:站長(zhǎng)之家

    要點(diǎn):

    1. OpenLM是一個(gè)簡(jiǎn)單且精簡(jiǎn)的PyTorch代碼庫,用于訓(xùn)練中等規(guī)模的語言模型,旨在最大化GPU利用率和訓(xùn)練速度,易于用于新的語言模型研究和應(yīng)用。

    2. OpenLM通過訓(xùn)練兩個(gè)語言模型,OpenLM-1B和OpenLM-7B,分別在1.6T和1.25T文本標(biāo)記上進(jìn)行驗(yàn)證,并在標(biāo)準(zhǔn)的零樣本文本分類和多項(xiàng)選擇任務(wù)上表現(xiàn)出色。

    3. 未來工作包括支持多模態(tài)模型、專家混合和數(shù)據(jù)集組合,以及擴(kuò)大OpenLM以支持訓(xùn)練更大的模型。

    站長(zhǎng)之家(ChinaZ.com)9月28日 消息:OpenLM是一個(gè)旨在訓(xùn)練中等規(guī)模語言模型的PyTorch代碼庫,它強(qiáng)調(diào)了最大化GPU利用率和訓(xùn)練速度的設(shè)計(jì)。該庫已經(jīng)通過訓(xùn)練OpenLM-1B和OpenLM-7B兩個(gè)語言模型,分別在1.6T和1.25T的文本標(biāo)記上進(jìn)行驗(yàn)證,取得了令人矚目的成果。OpenLM-1B在零樣本文本分類和多項(xiàng)選擇任務(wù)中表現(xiàn)出色,超越了一些類似規(guī)模的競(jìng)爭(zhēng)模型。OpenLM-7B則在性能上接近了其他大型模型,如LLAMA-7B和MPT-7B。

    image.png

    文章詳細(xì)介紹了OpenLM的模型架構(gòu)、訓(xùn)練數(shù)據(jù)來源以及訓(xùn)練過程。值得注意的是,OpenLM采用了GPT-NeoX令人滿意的分詞工具,但采用了LayerNorm而非RMSNorm,因?yàn)楹笳呱形刺砑尤诤系腞MSNorm操作。此外,1B模型采用了AdamW優(yōu)化器,而7B模型則采用了不同的學(xué)習(xí)率和全局批量大小,以實(shí)現(xiàn)更好的性能。

    文章還提供了有關(guān)模型驗(yàn)證和評(píng)估的信息,包括驗(yàn)證損失和零樣本評(píng)估結(jié)果。OpenLM-7B在不斷的訓(xùn)練中持續(xù)提高了零樣本性能,在1.25T標(biāo)記上,在11個(gè)任務(wù)中有7個(gè)任務(wù)的表現(xiàn)優(yōu)于競(jìng)爭(zhēng)模型。這表明OpenLM具有很大的潛力,并且可以在不斷擴(kuò)大規(guī)模的情況下提供出色的性能。

    最后,文章提出了未來工作方向,包括支持多模態(tài)模型、專家混合和數(shù)據(jù)集組合,以及擴(kuò)大OpenLM以支持訓(xùn)練更大的語言模型。OpenLM的團(tuán)隊(duì)成員和致謝也在文章中列出,表明了該項(xiàng)目的合作性質(zhì)和開源精神。

    舉報(bào)

    • 相關(guān)推薦
    • 時(shí)空壺接入大語言模型,跨語言溝通已成翻譯的藝術(shù)

      在當(dāng)今全球化浪潮中,跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國(guó)談判,到文化交流中的思想碰撞,高效、精準(zhǔn)的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代,時(shí)空壺有望持續(xù)引領(lǐng)行業(yè)變革,推動(dòng)全球交流合作邁向新的高度,真正實(shí)現(xiàn)跨越語言障礙,讓世界溝通無阻。

    • 何小鵬“劇透”:小鵬訓(xùn)練的一個(gè)物理大模型 是國(guó)內(nèi)車企“獨(dú)一份”

      快科技4月14日消息,今日早間,小鵬汽車創(chuàng)始人何小鵬在社交平臺(tái)發(fā)帖稱:作為最早把「智能化」作為核心的車企,小鵬的本質(zhì)是「AI汽車公司」,我認(rèn)為AI 最大的價(jià)值在于改變物理世界,而不僅是數(shù)字世界,我們要做一家面向全球的AI汽車公司,我更想通過 AI 來改變物理世界,這是很有意義的,但難度也更大。小鵬堅(jiān)持全棧自研,去年率先在自動(dòng)駕駛領(lǐng)域引入強(qiáng)化學(xué)習(xí)、模型

    • 媲美OpenAI-o3,剛剛開源模型DeepCoder,訓(xùn)練方法、數(shù)據(jù)集大公開

      今天凌晨4點(diǎn),著名大模型訓(xùn)練平臺(tái)TogetherAI和智能體平臺(tái)Agentica,聯(lián)合開源了新模型DeepCoder-14B-Preview。該模型只有140億參數(shù),但在知名代碼測(cè)試平臺(tái)LiveCodeBench的測(cè)試分為60.6%,高于OpenAI的o1模型,略低于o3-mini。TogetherAI剛獲得3.05億美元的B輪融資,其估值也從去年的12.5億美元翻倍至33億美元。

    • 阿丘科技李嘉悅:大模型驅(qū)動(dòng)的AI檢測(cè)范式變革——大模型、小模型、智能體的協(xié)同進(jìn)化

      3月28日,由機(jī)器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機(jī)器視覺展在上海新國(guó)際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺及工業(yè)應(yīng)用研討會(huì)現(xiàn)場(chǎng),圍繞“大模型驅(qū)動(dòng)的AI檢測(cè)范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題,發(fā)表了精彩演講?!苯衲?,在這個(gè)快速變化的時(shí)代,我要補(bǔ)充一句:“AI工業(yè)視覺的格局正在加速變革,不會(huì)用大模型的將會(huì)被善用大模型的人淘汰。

    • 提升大模型自動(dòng)修Bug能力 豆包正式開源首個(gè)多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)宣布,正式開源首個(gè)多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評(píng)估和提升大模型自動(dòng)修Bug”能力。在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評(píng)測(cè)基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù),Multi-SWE-bench更貼近現(xiàn)實(shí)中的多語言開發(fā)場(chǎng)景,也更能反映當(dāng)前模型在自動(dòng)化軟件工程”方向上的實(shí)際能力邊界。

    • 國(guó)產(chǎn)六大推理模型激戰(zhàn)OpenAI?

      2025年春節(jié)前夕,DeepSeek-R1模型發(fā)布,標(biāo)志著中國(guó)AI進(jìn)入推理模型新時(shí)代。文章梳理了國(guó)產(chǎn)大模型發(fā)展歷程:從2022年ChatGPT引發(fā)國(guó)內(nèi)追趕OpenAI熱潮,到2023年"百模大戰(zhàn)",再到2024年"AI六小虎"格局形成。重點(diǎn)分析了六大國(guó)產(chǎn)推理模型(DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊)的技術(shù)特點(diǎn)與市場(chǎng)表現(xiàn),指出國(guó)產(chǎn)模型在性能上已接近GPT-4水平。特別強(qiáng)調(diào)科大訊飛星火X1憑借全國(guó)產(chǎn)化技術(shù)路線獲得政企青睞,以及DeepSeek-R1以560萬美元超低成本實(shí)現(xiàn)高性能的突破。文章還探討了英偉達(dá)芯片斷供危機(jī)下,國(guó)產(chǎn)全棧技術(shù)路徑的重要性,認(rèn)為自主可控將成為對(duì)抗國(guó)際不確定性的關(guān)鍵。最后指出,隨著推理模型成為競(jìng)爭(zhēng)焦點(diǎn),國(guó)產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

    • 為編程而生?OpenAI 發(fā)布 GPT -4.1 系列模型

      OpenAI 表示,GPT-4.1 是為開發(fā)者量身定制的……

    • 模型時(shí)代的新燃料|標(biāo)貝科技推出大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集

      本文探討了人工智能語音交互領(lǐng)域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出,大模型技術(shù)驅(qū)動(dòng)下語音交互應(yīng)用場(chǎng)景持續(xù)拓展,但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當(dāng)前語音大模型訓(xùn)練需要TB至PB級(jí)數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實(shí)數(shù)據(jù)的重要補(bǔ)充,能通過參數(shù)化生成機(jī)制規(guī)避隱私風(fēng)險(xiǎn),突破傳統(tǒng)數(shù)據(jù)在多樣性和場(chǎng)景覆蓋上的局限性。國(guó)內(nèi)外科技企業(yè)已開始廣泛應(yīng)用合成數(shù)據(jù)訓(xùn)練AI模型,如Meta的LLaMA3和微軟的Phi-4模型。標(biāo)貝科技推出超大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集,包含上萬小時(shí)數(shù)據(jù),覆蓋中英混合場(chǎng)景,支持情感合成、風(fēng)格遷移等前沿任務(wù),為虛擬偶像、數(shù)字人等元宇宙場(chǎng)景提供實(shí)時(shí)語音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術(shù),在自然度、流暢度等方面達(dá)到行業(yè)領(lǐng)先水平。

    • 合合信息發(fā)布“大模型加速器 2.0”,助力大模型跨越“幻覺”障礙

      近日,上海合合信息科技股份有限公司(簡(jiǎn)稱“合合信息”)TextIn“大模型加速器 2.0”版本正式上線,憑借其多維度升級(jí),為降低大模型“幻覺”風(fēng)險(xiǎn)、推動(dòng)大模型精準(zhǔn)應(yīng)用提供了強(qiáng)大助力。訓(xùn)練數(shù)據(jù)是影響大模型“認(rèn)知能力”的關(guān)鍵,合合信息“大模型加速器 2.0”基于領(lǐng)先的智能文檔處理技術(shù),從數(shù)據(jù)源頭入手,對(duì)復(fù)雜文檔的版式、布局和元素進(jìn)行精準(zhǔn)解析及結(jié)構(gòu)化處理,

    • 不要思考過程,推理模型能力能夠更強(qiáng)

      UC伯克利和艾倫實(shí)驗(yàn)室的最新研究表明,推理模型無需依賴冗長(zhǎng)的思考過程也能有效工作。研究人員提出的"無思考(NoThinking)"方法通過簡(jiǎn)單提示直接生成解決方案,跳過了傳統(tǒng)推理模型中的顯性思考步驟。實(shí)驗(yàn)證明,在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下,NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式,能減少token使用量并提高推理速度。該方法在數(shù)學(xué)問題解決、編程和形式定理證明等任務(wù)中表現(xiàn)優(yōu)異,尤其在資源受限時(shí)優(yōu)勢(shì)更明顯。研究還發(fā)現(xiàn),結(jié)合并行計(jì)算擴(kuò)展后,NoThinking能進(jìn)一步提升性能,在保持準(zhǔn)確性的同時(shí)顯著降低延遲和計(jì)算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細(xì)思考過程"的傳統(tǒng)認(rèn)知。