无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > AI頭條  > 正文

    ?字節(jié)跳動推出 QuaDMix:大型語言模型預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量與多樣性的統(tǒng)一框架

    2025-04-28 09:38 · 來源: AIbase基地

    近日,字節(jié)跳動宣布推出其全新的數(shù)據(jù)選擇框架 QuaDMix,旨在提升大型語言模型(LLM)預(yù)訓(xùn)練的效率和泛化能力。眾所周知,模型的訓(xùn)練效果受基礎(chǔ)數(shù)據(jù)集的質(zhì)量和多樣性影響很大。然而,傳統(tǒng)的數(shù)據(jù)篩選方法往往將質(zhì)量和多樣性視為兩個獨立的目標(biāo),先進行質(zhì)量過濾,再進行領(lǐng)域平衡。

    QQ_1745804240748.png

    這種逐步優(yōu)化的方式忽略了質(zhì)量與多樣性之間的復(fù)雜相互關(guān)系。優(yōu)質(zhì)數(shù)據(jù)集往往存在領(lǐng)域偏差,而多樣化的數(shù)據(jù)集可能會降低質(zhì)量。因此,在固定的訓(xùn)練預(yù)算下,如何同時優(yōu)化這兩個維度以最大化模型性能,成為了一個亟待解決的難題。

    QuaDMix 框架的主要運作分為三個階段:特征提取、質(zhì)量聚合和質(zhì)量 - 多樣性感知采樣。在初始階段,每個文檔都會被標(biāo)注領(lǐng)域標(biāo)簽和多項質(zhì)量評分。通過歸一化和合并這些評分,生成一個綜合質(zhì)量分?jǐn)?shù)。接著,系統(tǒng)通過基于 sigmoid 的函數(shù)采樣文檔,優(yōu)先考慮高質(zhì)量樣本,并通過參數(shù)化控制確保領(lǐng)域平衡。

    為了優(yōu)化模型,QuaDMix 在不同參數(shù)設(shè)置下訓(xùn)練了數(shù)千個代理模型。通過這些代理實驗訓(xùn)練的回歸模型可以預(yù)測性能結(jié)果,從而識別出最佳采樣配置。這種方法使得在高維參數(shù)空間中進行結(jié)構(gòu)化探索成為可能,從而更好地將數(shù)據(jù)選擇與下游任務(wù)對接。

    實驗結(jié)果顯示,QuaDMix 在 RefinedWeb 數(shù)據(jù)集上進行的驗證實驗中,與多種基線模型相比,平均得分達(dá)到了39.5%。這些基線模型包括隨機選擇、Fineweb-edu、AskLLM、DCLM 等。實驗結(jié)果表明,聯(lián)合優(yōu)化策略在整體表現(xiàn)上始終優(yōu)于單獨關(guān)注質(zhì)量或多樣性的方法。此外,經(jīng)過優(yōu)化的數(shù)據(jù)混合更能提升特定下游任務(wù)的性能。

    QuaDMix 為大型語言模型的預(yù)訓(xùn)練數(shù)據(jù)選擇提供了一個系統(tǒng)化的解決方案,解決了長期以來同時優(yōu)化數(shù)據(jù)質(zhì)量與多樣性的挑戰(zhàn)。通過結(jié)合質(zhì)量聚合和領(lǐng)域感知采樣,QuaDMix 建立了一種可擴展的方法論,提升了 LLM 預(yù)訓(xùn)練的效率。

    劃重點:

    ?? QuaDMix 是字節(jié)跳動推出的一個新框架,旨在同時優(yōu)化大型語言模型預(yù)訓(xùn)練中的數(shù)據(jù)質(zhì)量和多樣性。  

    ?? 該框架通過特征提取、質(zhì)量聚合和質(zhì)量 - 多樣性感知采樣的三階段流程來實現(xiàn)數(shù)據(jù)選擇。  

    ?? 實驗結(jié)果顯示,QuaDMix 在多個基準(zhǔn)測試中表現(xiàn)優(yōu)異,平均得分達(dá)到了39.5%,超越了多種傳統(tǒng)方法。

    • 相關(guān)推薦

    今日大家都在搜的詞: