无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

<source id="djyky"><legend id="djyky"><tfoot id="djyky"></tfoot></legend></source>

OpenLM：一個(gè)專為中等規(guī)模語言模型設(shè)計(jì)的模型訓(xùn)練庫

2023-09-28 14:30 · 稿源：站長(zhǎng)之家

要點(diǎn):
1. OpenLM是一個(gè)簡(jiǎn)單且精簡(jiǎn)的PyTorch代碼庫，用于訓(xùn)練中等規(guī)模的語言模型，旨在最大化GPU利用率和訓(xùn)練速度，易于用于新的語言模型研究和應(yīng)用。
2. OpenLM通過訓(xùn)練兩個(gè)語言模型，OpenLM-1B和OpenLM-7B，分別在1.6T和1.25T文本標(biāo)記上進(jìn)行驗(yàn)證，并在標(biāo)準(zhǔn)的零樣本文本分類和多項(xiàng)選擇任務(wù)上表現(xiàn)出色。
3. 未來工作包括支持多模態(tài)模型、專家混合和數(shù)據(jù)集組合，以及擴(kuò)大OpenLM以支持訓(xùn)練更大的模型。

站長(zhǎng)之家（ChinaZ.com）9月28日消息:OpenLM是一個(gè)旨在訓(xùn)練中等規(guī)模語言模型的PyTorch代碼庫，它強(qiáng)調(diào)了最大化GPU利用率和訓(xùn)練速度的設(shè)計(jì)。該庫已經(jīng)通過訓(xùn)練OpenLM-1B和OpenLM-7B兩個(gè)語言模型，分別在1.6T和1.25T的文本標(biāo)記上進(jìn)行驗(yàn)證，取得了令人矚目的成果。OpenLM-1B在零樣本文本分類和多項(xiàng)選擇任務(wù)中表現(xiàn)出色，超越了一些類似規(guī)模的競(jìng)爭(zhēng)模型。OpenLM-7B則在性能上接近了其他大型模型，如LLAMA-7B和MPT-7B。

文章詳細(xì)介紹了OpenLM的模型架構(gòu)、訓(xùn)練數(shù)據(jù)來源以及訓(xùn)練過程。值得注意的是，OpenLM采用了GPT-NeoX令人滿意的分詞工具，但采用了LayerNorm而非RMSNorm，因?yàn)楹笳呱形刺砑尤诤系腞MSNorm操作。此外，1B模型采用了AdamW優(yōu)化器，而7B模型則采用了不同的學(xué)習(xí)率和全局批量大小，以實(shí)現(xiàn)更好的性能。

文章還提供了有關(guān)模型驗(yàn)證和評(píng)估的信息，包括驗(yàn)證損失和零樣本評(píng)估結(jié)果。OpenLM-7B在不斷的訓(xùn)練中持續(xù)提高了零樣本性能，在1.25T標(biāo)記上，在11個(gè)任務(wù)中有7個(gè)任務(wù)的表現(xiàn)優(yōu)于競(jìng)爭(zhēng)模型。這表明OpenLM具有很大的潛力，并且可以在不斷擴(kuò)大規(guī)模的情況下提供出色的性能。

最后，文章提出了未來工作方向，包括支持多模態(tài)模型、專家混合和數(shù)據(jù)集組合，以及擴(kuò)大OpenLM以支持訓(xùn)練更大的語言模型。OpenLM的團(tuán)隊(duì)成員和致謝也在文章中列出，表明了該項(xiàng)目的合作性質(zhì)和開源精神。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

OpenLM

時(shí)空壺接入大語言模型，跨語言溝通已成翻譯的藝術(shù)

在當(dāng)今全球化浪潮中，跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國(guó)談判，到文化交流中的思想碰撞，高效、精準(zhǔn)的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代，時(shí)空壺有望持續(xù)引領(lǐng)行業(yè)變革，推動(dòng)全球交流合作邁向新的高度，真正實(shí)現(xiàn)跨越語言障礙，讓世界溝通無阻。

?跨語言溝通 ?AI ?翻譯設(shè)備
何小鵬“劇透”：小鵬訓(xùn)練的一個(gè)物理大模型是國(guó)內(nèi)車企“獨(dú)一份”

快科技4月14日消息，今日早間，小鵬汽車創(chuàng)始人何小鵬在社交平臺(tái)發(fā)帖稱：作為最早把「智能化」作為核心的車企，小鵬的本質(zhì)是「AI汽車公司」，我認(rèn)為AI 最大的價(jià)值在于改變物理世界，而不僅是數(shù)字世界，我們要做一家面向全球的AI汽車公司，我更想通過 AI 來改變物理世界，這是很有意義的，但難度也更大。小鵬堅(jiān)持全棧自研，去年率先在自動(dòng)駕駛領(lǐng)域引入強(qiáng)化學(xué)習(xí)、模型

?小鵬汽車 ?AI汽車 ?智能化
薦媲美OpenAI-o3，剛剛開源模型DeepCoder，訓(xùn)練方法、數(shù)據(jù)集大公開

今天凌晨4點(diǎn)，著名大模型訓(xùn)練平臺(tái)TogetherAI和智能體平臺(tái)Agentica，聯(lián)合開源了新模型DeepCoder-14B-Preview。該模型只有140億參數(shù)，但在知名代碼測(cè)試平臺(tái)LiveCodeBench的測(cè)試分為60.6%，高于OpenAI的o1模型，略低于o3-mini。TogetherAI剛獲得3.05億美元的B輪融資，其估值也從去年的12.5億美元翻倍至33億美元。

?大模型 ?深度學(xué)習(xí) ?開源模型
阿丘科技李嘉悅：大模型驅(qū)動(dòng)的AI檢測(cè)范式變革——大模型、小模型、智能體的協(xié)同進(jìn)化

3月28日，由機(jī)器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機(jī)器視覺展在上海新國(guó)際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺及工業(yè)應(yīng)用研討會(huì)現(xiàn)場(chǎng)，圍繞“大模型驅(qū)動(dòng)的AI檢測(cè)范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題，發(fā)表了精彩演講?！苯衲?，在這個(gè)快速變化的時(shí)代，我要補(bǔ)充一句:“AI工業(yè)視覺的格局正在加速變革，不會(huì)用大模型的將會(huì)被善用大模型的人淘汰。

?機(jī)器視覺 ?AI檢測(cè) ?工業(yè)應(yīng)用
提升大模型自動(dòng)修Bug能力豆包正式開源首個(gè)多語言類SWE數(shù)據(jù)集

今日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)宣布，正式開源首個(gè)多語言類SWE數(shù)據(jù)集Multi-SWE-bench，可用于評(píng)估和提升大模型自動(dòng)修Bug”能力。在SWE-bench基礎(chǔ)上，Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言，是真正面向全棧工程”的評(píng)測(cè)基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù)，Multi-SWE-bench更貼近現(xiàn)實(shí)中的多語言開發(fā)場(chǎng)景，也更能反映當(dāng)前模型在自動(dòng)化軟件工程”方向上的實(shí)際能力邊界。

?字節(jié)跳動(dòng) ?多語言數(shù)據(jù)集 ?大模型自動(dòng)修復(fù)
薦國(guó)產(chǎn)六大推理模型激戰(zhàn)OpenAI？

2025年春節(jié)前夕，DeepSeek-R1模型發(fā)布，標(biāo)志著中國(guó)AI進(jìn)入推理模型新時(shí)代。文章梳理了國(guó)產(chǎn)大模型發(fā)展歷程：從2022年ChatGPT引發(fā)國(guó)內(nèi)追趕OpenAI熱潮，到2023年"百模大戰(zhàn)"，再到2024年"AI六小虎"格局形成。重點(diǎn)分析了六大國(guó)產(chǎn)推理模型（DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊）的技術(shù)特點(diǎn)與市場(chǎng)表現(xiàn)，指出國(guó)產(chǎn)模型在性能上已接近GPT-4水平。特別強(qiáng)調(diào)科大訊飛星火X1憑借全國(guó)產(chǎn)化技術(shù)路線獲得政企青睞，以及DeepSeek-R1以560萬美元超低成本實(shí)現(xiàn)高性能的突破。文章還探討了英偉達(dá)芯片斷供危機(jī)下，國(guó)產(chǎn)全棧技術(shù)路徑的重要性，認(rèn)為自主可控將成為對(duì)抗國(guó)際不確定性的關(guān)鍵。最后指出，隨著推理模型成為競(jìng)爭(zhēng)焦點(diǎn)，國(guó)產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

?AI技術(shù) ?DeepSeek-R1 ?云服務(wù)器
為編程而生？OpenAI 發(fā)布 GPT -4.1 系列模型

OpenAI 表示，GPT-4.1 是為開發(fā)者量身定制的……

?openai ?gpt-4.1 ?gpt-4.1mini
大模型時(shí)代的新燃料|標(biāo)貝科技推出大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集

本文探討了人工智能語音交互領(lǐng)域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出，大模型技術(shù)驅(qū)動(dòng)下語音交互應(yīng)用場(chǎng)景持續(xù)拓展，但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當(dāng)前語音大模型訓(xùn)練需要TB至PB級(jí)數(shù)據(jù)，而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實(shí)數(shù)據(jù)的重要補(bǔ)充，能通過參數(shù)化生成機(jī)制規(guī)避隱私風(fēng)險(xiǎn)，突破傳統(tǒng)數(shù)據(jù)在多樣性和場(chǎng)景覆蓋上的局限性。國(guó)內(nèi)外科技企業(yè)已開始廣泛應(yīng)用合成數(shù)據(jù)訓(xùn)練AI模型，如Meta的LLaMA3和微軟的Phi-4模型。標(biāo)貝科技推出超大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集，包含上萬小時(shí)數(shù)據(jù)，覆蓋中英混合場(chǎng)景，支持情感合成、風(fēng)格遷移等前沿任務(wù)，為虛擬偶像、數(shù)字人等元宇宙場(chǎng)景提供實(shí)時(shí)語音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術(shù)，在自然度、流暢度等方面達(dá)到行業(yè)領(lǐng)先水平。

?大模型技術(shù) ?人工智能變革 ?語音交互
合合信息發(fā)布“大模型加速器 2.0”，助力大模型跨越“幻覺”障礙

近日，上海合合信息科技股份有限公司（簡(jiǎn)稱“合合信息”）TextIn“大模型加速器 2.0”版本正式上線，憑借其多維度升級(jí)，為降低大模型“幻覺”風(fēng)險(xiǎn)、推動(dòng)大模型精準(zhǔn)應(yīng)用提供了強(qiáng)大助力。訓(xùn)練數(shù)據(jù)是影響大模型“認(rèn)知能力”的關(guān)鍵，合合信息“大模型加速器 2.0”基于領(lǐng)先的智能文檔處理技術(shù)，從數(shù)據(jù)源頭入手，對(duì)復(fù)雜文檔的版式、布局和元素進(jìn)行精準(zhǔn)解析及結(jié)構(gòu)化處理，

?大模型加速器 ?合合信息 ?智能文檔處理
薦不要思考過程，推理模型能力能夠更強(qiáng)

UC伯克利和艾倫實(shí)驗(yàn)室的最新研究表明，推理模型無需依賴冗長(zhǎng)的思考過程也能有效工作。研究人員提出的"無思考(NoThinking)"方法通過簡(jiǎn)單提示直接生成解決方案，跳過了傳統(tǒng)推理模型中的顯性思考步驟。實(shí)驗(yàn)證明，在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下，NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式，能減少token使用量并提高推理速度。該方法在數(shù)學(xué)問題解決、編程和形式定理證明等任務(wù)中表現(xiàn)優(yōu)異，尤其在資源受限時(shí)優(yōu)勢(shì)更明顯。研究還發(fā)現(xiàn)，結(jié)合并行計(jì)算擴(kuò)展后，NoThinking能進(jìn)一步提升性能，在保持準(zhǔn)確性的同時(shí)顯著降低延遲和計(jì)算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細(xì)思考過程"的傳統(tǒng)認(rèn)知。

?推理模型 ?無思考方法 ?解決方案

熱文

3 天
7天

1

全網(wǎng)最大的“AI色情網(wǎng)站”MrDeepfakes宣布永久關(guān)閉

1

全網(wǎng)最大的“AI色情網(wǎng)站”MrDeepfakes宣布永久關(guān)閉

站長(zhǎng)商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<option id="ul1xh"></option>