无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > LongLoRA最新資訊  > 正文

    新微調(diào)方法LongLoRA可低成本提升LLM上下文理解能力

    2023-09-26 16:53 · 稿源:站長之家

    文章概要:

    1. 長文本理解突破:MIT與香港中文大學(xué)合作研發(fā)出LongLoRA,一種優(yōu)化方法,可提升大型預(yù)訓(xùn)練語言模型(LLM)的上下文理解能力,而無需大量計算資源。

    2. 訓(xùn)練方法創(chuàng)新:研究人員采用稀疏本地關(guān)注與參數(shù)高效調(diào)優(yōu)策略相結(jié)合的方法,顯著降低了訓(xùn)練成本,同時保持性能。

    3. 上下文長度的關(guān)鍵性:文章討論了上下文長度對LLM性能的影響,強調(diào)了在某些情況下,上下文長度比模型參數(shù)數(shù)量更為重要。

    站長之家(ChinaZ.com) 9月26日 消息:近日,麻省理工學(xué)院(MIT)與香港中文大學(xué)聯(lián)手開發(fā)了一項名為LongLoRA的新微調(diào)方法,為大型預(yù)訓(xùn)練語言模型(LLM)的發(fā)展提供了全新的途徑。這一方法被設(shè)計用來增強LLM對上下文的理解能力,而無需過多的計算資源,為經(jīng)濟型超大LLM的構(gòu)建鋪平了道路。

    LLM在自然語言處理領(lǐng)域發(fā)揮著巨大的作用,但通常需要巨大的計算資源來進(jìn)行訓(xùn)練。文章指出,訓(xùn)練一個具有8192長度上下文的模型,相比于2048長度上下文,需要16倍的計算資源。而上下文長度實際上代表了LLM在回應(yīng)給定提示時對整個上下文的清晰理解能力,這對于模型的性能至關(guān)重要。

    AI機器人玩游戲

    圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney

    LongLoRA方法的創(chuàng)新之處在于研究人員采用了兩種關(guān)鍵方法來拓展LLM的上下文理解能力。首先,他們采用了稀疏本地關(guān)注,具體是“shift short attention(S2-Attn)”方法,通過這一方法在Fine-tuning過程中,高效地實現(xiàn)了上下文的拓展,同時保持了與標(biāo)準(zhǔn)關(guān)注機制相似的性能水平。

    其次,研究人員重新審視了參數(shù)高效調(diào)優(yōu)策略,發(fā)現(xiàn)結(jié)合可訓(xùn)練的嵌入和標(biāo)準(zhǔn)化方法的LoRA在上下文擴展方面非常有效。LongLoRA在多個任務(wù)中都獲得了強大的實驗結(jié)果,使用了LLaMA2模型,從7B/13B到70B不等。這一方法可以將模型的上下文從4k擴展到100k,適用于LLaMA27B,或者從32k擴展到LLaMA270B,而僅需要一臺8× A100機器。值得注意的是,LongLoRA保持了原始模型架構(gòu),并與各種現(xiàn)有技術(shù)兼容。

    為了提高LongLoRA方法的實用性,研究團隊還創(chuàng)建了LongQA數(shù)據(jù)集,用于監(jiān)督Fine-tuning,包括超過3,000個問題-答案對,其中包含了詳細(xì)的上下文。

    研究的關(guān)鍵發(fā)現(xiàn)包括對長序列語言建模的評估,研究發(fā)現(xiàn),通過更長的上下文訓(xùn)練,模型的性能得到了提升,這顯示了他們Fine-tuning方法的有效性。另外,研究還探討了這些模型在單臺機器上能夠處理的最大上下文長度,發(fā)現(xiàn)即使在較小的上下文長度下,模型仍然表現(xiàn)出色。此外,研究還進(jìn)行了基于檢索的評估,測試了模型在尋找長對話中特定主題的任務(wù)中的表現(xiàn),結(jié)果顯示,這些模型在某些情況下甚至優(yōu)于同類競爭模型,并且更高效地適應(yīng)了開源數(shù)據(jù)。

    最近的討論中,關(guān)于LLaMA和Falcon等語言模型的性能已經(jīng)開始超越了更大模型(如GPT-4或PaLM),焦點逐漸從增加模型參數(shù)數(shù)量轉(zhuǎn)向了上下文令牌數(shù)量或上下文長度的考慮。文章還引用了一項研究,指出與常見誤解相反,較長的輸入文本并不總是導(dǎo)致更好的輸出。實際上,在將較長的文章輸入模型(例如2000字)時,模型通常只能理解前700-800字的內(nèi)容,之后生成的回應(yīng)可能會變得不太連貫。這一現(xiàn)象類似于人類記憶的工作方式,信息的開頭和結(jié)尾通常比中間部分更容易被記住。

    LongLoRA方法的推出為經(jīng)濟型超大LLM的發(fā)展提供了新的路徑,通過優(yōu)化上下文理解能力,降低了訓(xùn)練成本,有望推動自然語言處理領(lǐng)域的進(jìn)一步發(fā)展。

    舉報

    • 相關(guān)推薦
    • LongLoRA提升LLM上下文能力的創(chuàng)新微調(diào)方法

      LongLoRA是一種全新的微調(diào)方法,旨在提高大語言模型的上下文處理能力無需過多的算力資源。增加LLM的上下文處理能力需要大量的算力支持,但LongLoRA采用了創(chuàng)新的方法,使LLM能夠處理更長的文本和更多的信息。它在處理長文本和復(fù)雜任務(wù)方面表現(xiàn)出色,為語言模型領(lǐng)域帶來了新的可能性。

    • LongLoRA:超長上下文,大語言模型高效微調(diào)方法

      麻省理工學(xué)院和香港中文大學(xué)聯(lián)合發(fā)布了LongLoRA,這是一種全新的微調(diào)方法,可以增強大語言模型的上下文能力無需消耗大量算力資源。想增加大語言模型的上下文處理能力,需要更多的算力支持。LongLoRA在大型語言模型領(lǐng)域提出了創(chuàng)新方法,在處理大量信息時,也可以更輕松、更高效地微調(diào)這些模型必須消耗更多的算力資源。

    • FAVOR:通過精細(xì)融合音頻和視覺細(xì)節(jié)提升大模型視頻理解能力

      研究人員日前發(fā)布了一項名為"FAVOR"的創(chuàng)新技術(shù),它能夠在幀級別巧妙地融合音頻和視覺細(xì)節(jié),從增強大型語言模型對視頻內(nèi)容的理解能力。這一引入FAVOR方法的舉措,為拓展大型語言模型在視頻理解領(lǐng)域的潛力開辟了新的機遇。這些示例可以作為起點,幫助用戶開始構(gòu)建他們自己的多模態(tài)交互。

    • Open AI推出DALL?E3圖像生成模型:理解能力提升 圖片細(xì)節(jié)更豐富

      OpenAI宣布推出DALL?E3圖像生成模型,它的前身是DALL?E2。相比于之前的版本,DALL?E3在理解細(xì)微差別和細(xì)節(jié)方面有了顯著提升,能夠更準(zhǔn)確地將想法轉(zhuǎn)化為圖像。OpenAI表示,DALL·E3目前處于研究預(yù)覽階段,將于10月份通過API向ChatGPTPlus和企業(yè)客戶提供,并于今年秋天晚些時候在實驗室中提供。

    • StreamingLLM:讓AI模型無限期平穩(wěn)運行的一種方法

      Meta、麻省理工學(xué)院和卡內(nèi)基梅隆大學(xué)的研究人員最近發(fā)表的一篇新論文介紹了一項名為StreamingLLM的創(chuàng)新技術(shù),旨在解決大型語言模型在長時間對話中性能下降的問題。LLMs如OpenAI的ChatGPT和Meta的Llama2在當(dāng)今的人工智能領(lǐng)域備受關(guān)注,但它們都面臨一個共同的挑戰(zhàn),即在與用戶的對話中始終提供高質(zhì)量的響應(yīng),無論對話持續(xù)多長時間或交換的對話數(shù)量如何。StreamingLLM技術(shù)為LLMs在長時間對話中保持高性能提供了創(chuàng)新的解決方案,有望在許多領(lǐng)域,特別是需要持續(xù)不斷地與用戶交互的應(yīng)用中得到廣泛應(yīng)用。

    • LLM能否自我評估安全性?RAIN:一種無需微調(diào)即可改善AI對齊和安全防御新方法

      大型預(yù)訓(xùn)練語言模型,如GPT-3,具有出色的能力,可以理解和回答人類提出的問題,協(xié)助編碼工作等。它們常常生成與人類偏好不同的結(jié)果。這是通過允許LLM評估和改進(jìn)其自身輸出來實現(xiàn)的,最終產(chǎn)生更協(xié)調(diào)和安全的AI生成響應(yīng)。

    • 0.2美元微調(diào)就能讓ChatGPT徹底破防!普林斯頓、斯坦福發(fā)布LLM風(fēng)險預(yù)警:普通用戶微調(diào)也影響LLM安全性

      【新智元導(dǎo)讀】微調(diào)LLM需謹(jǐn)慎,用良性數(shù)據(jù)、微調(diào)后角色扮演等都會破壞LLM對齊性能!學(xué)習(xí)調(diào)大了還會繼續(xù)提高風(fēng)險!雖說預(yù)訓(xùn)練語言模型可以在零樣本設(shè)置下,對新任務(wù)實現(xiàn)非常好的泛化性能,但在現(xiàn)實應(yīng)用時,往往還需要針對特定用例對模型進(jìn)行微調(diào)。微調(diào)后的模型安全性如何?是否會遺忘之前接受的對齊訓(xùn)練嗎?面向用戶時是否會輸出有害內(nèi)容?提供LLM服務(wù)的廠商也需要考慮到,當(dāng)給終端用戶開放模型微調(diào)權(quán)限后,安全性是否會下降?最近,普林斯頓大學(xué)、IBM、斯坦福等機構(gòu)通過redteam實驗證明,只需要幾個惡意樣本即可大幅降低預(yù)訓(xùn)練模型的安全性,甚至普通用戶的微調(diào)也會影響模型的安全性。不管真正的原因是什么,研究人員假設(shè),如果能夠在未來的對齊工作中鞏固那些不太穩(wěn)健的危害類別,可能能夠進(jìn)一步提高良性微調(diào)情況下的整體安全性。

    • Meta悄然發(fā)布Llama 2 Long AI模型

      Meta最近發(fā)布了Llama2LongAI模型,該模型在一些任務(wù)上超越了GPT-3.5Turbo和Claude2。通過改進(jìn)訓(xùn)練方法和編碼技術(shù),Meta的研究人員提高了這個AI模型的性能,使其能夠更好地處理長文本和復(fù)雜任務(wù)。強調(diào)了合作的重要性,指出不是每個企業(yè)都擁有高級的數(shù)據(jù)工程和數(shù)據(jù)科學(xué)技能,因此需要與具有相關(guān)技術(shù)和深刻了解整個領(lǐng)域的合作伙伴合作來解決這一問題。

    • 中國研究人員推ImageBind-LLM:通過ImageBind實現(xiàn)LLM的多模態(tài)指令調(diào)優(yōu)方法

      研究人員最近在大型語言模型的指令調(diào)整方面取得了令人矚目的進(jìn)展。這一發(fā)現(xiàn)對于提高通用語言模型的性能和多模態(tài)指令響應(yīng)能力具有重要意義。ImageBind-LLM展示了四個關(guān)鍵特點:這項研究的成果為大型語言模型的多模態(tài)指令響應(yīng)能力提供了新的方法和思路,具有重要的實際應(yīng)用潛力。

    • 開源機器學(xué)習(xí)庫vLLM 提升大語言模型推理速度

      大語言模型在改變?nèi)藗兊纳詈吐殬I(yè)方面影響越來越大,因為它們實現(xiàn)了編程助手和通用聊天機器人等新應(yīng)用。這些應(yīng)用的運行需要大量硬件加速器如GPU,操作成本非常高。更大的模型、更復(fù)雜的解碼算法和更長的序列會導(dǎo)致更明顯的改進(jìn)。