无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > LLM最新資訊  > 正文

    LongLoRA:提升LLM上下文能力的創(chuàng)新微調(diào)方法

    2023-10-07 08:55 · 稿源:站長(zhǎng)之家

    要點(diǎn):

    1. LongLoRA是一種創(chuàng)新的微調(diào)方法,可以顯著增強(qiáng)大語(yǔ)言模型的上下文處理能力,而無(wú)需消耗大量算力資源。

    2. LongLoRA采用了兩大步驟的高效微調(diào)方法,包括使用轉(zhuǎn)變短注意力(S2-Attn)和有效擴(kuò)大上下文的技巧,可以在不同任務(wù)上取得出色的結(jié)果。

    3. LongLoRA展示了大型語(yǔ)言模型在處理更多信息時(shí)能力的提升,尤其擅長(zhǎng)處理長(zhǎng)文本和長(zhǎng)對(duì)話中的特定主題,為處理復(fù)雜任務(wù)提供了新的可能性。

    站長(zhǎng)之家(ChinaZ.com)10月7日 消息:LongLoRA是一種全新的微調(diào)方法,旨在提高大語(yǔ)言模型(LLM)的上下文處理能力,而無(wú)需過(guò)多的算力資源。傳統(tǒng)上,增加LLM的上下文處理能力需要大量的算力支持,但LongLoRA采用了創(chuàng)新的方法,使LLM能夠處理更長(zhǎng)的文本和更多的信息。這種方法的核心是采用了兩大步驟的高效微調(diào)方法。首先,它使用了一種稱為轉(zhuǎn)變短注意力(S2-Attn)的新型注意力形式,該方法能夠在訓(xùn)練過(guò)程中節(jié)省計(jì)算能力,同時(shí)保持了高效性。其次,LongLoRA重新挖掘了一種名為L(zhǎng)oRA的方法,用于有效擴(kuò)大訓(xùn)練信息的上下文。這個(gè)方法在與可訓(xùn)練的嵌入和規(guī)范化一起使用時(shí)非常有效。

    image.png

    開(kāi)源地址:https://github.com/dvlab-research/LongLoRA

    論文地址:https://arxiv.org/abs/2309.12307

    LongLoRA的優(yōu)勢(shì)在于它能夠在各種任務(wù)上取得出色的結(jié)果,并且可以與不同大小的LLM一起使用。它可以將用于訓(xùn)練的數(shù)據(jù)量從4k增加到100k,對(duì)于另一個(gè)模型,可以增加到32k,而所有這些都可以在一臺(tái)強(qiáng)大的計(jì)算機(jī)上完成,與其他技術(shù)兼容性良好,不會(huì)改變?cè)寄P驮O(shè)計(jì)架構(gòu)。

    研究還發(fā)現(xiàn),隨著上下文大小的增加,模型的性能更好,這證明了LongLoRA微調(diào)方法的有效性。使用更多信息進(jìn)行訓(xùn)練可以帶來(lái)更好的結(jié)果,例如,一個(gè)模型的困惑度性能從2.72降低到2.50,當(dāng)上下文窗口從8192增加到32768時(shí)。此外,LongLoRA還在處理長(zhǎng)對(duì)話中找到特定主題方面表現(xiàn)出色,與競(jìng)爭(zhēng)對(duì)手相比,它更有效地適應(yīng)開(kāi)源數(shù)據(jù)。

    LongLoRA提出了一種創(chuàng)新方法,使大型語(yǔ)言模型能夠更輕松、更高效地處理大量信息,而無(wú)需消耗大量算力資源。它在處理長(zhǎng)文本和復(fù)雜任務(wù)方面表現(xiàn)出色,為語(yǔ)言模型領(lǐng)域帶來(lái)了新的可能性。

    舉報(bào)

    • 相關(guān)推薦
    • 剛剛,OpenAI發(fā)布GPT-4.1,性能暴漲、100萬(wàn)上下文

      今天凌晨1點(diǎn),OpenAI進(jìn)行了技術(shù)直播發(fā)布了最新模型——GPT-4.1。除了GPT-4.1之外,還有GPT4.1-Mini和GPT4.1-Nano兩款模型,在多模態(tài)處理、代碼能力、指令遵循、成本方面實(shí)現(xiàn)大幅度提升。特別是支持100萬(wàn)token上下文,這對(duì)于金融分析、小說(shuō)寫(xiě)作、教育等領(lǐng)域幫助巨大。由于GPT-4.1的發(fā)布,OpenAI宣布將會(huì)淘汰剛發(fā)布不久的GPT-4.5,其能力可見(jiàn)一斑。目前,如果想體驗(yàn)GPT-4.1而無(wú)法通過(guò)API身?

    • 1000萬(wàn)上下文!新開(kāi)源多模態(tài)大模型,單個(gè)GPU就能運(yùn)行

      今年2月初,谷歌發(fā)布的Gemini2.0Pro支持200萬(wàn)上下文,震驚了整個(gè)大模型領(lǐng)域。僅過(guò)了2個(gè)月,Meta最新開(kāi)源的Llama4Scout就將上下文擴(kuò)展至1000萬(wàn),整整提升了5倍開(kāi)啟千萬(wàn)級(jí)時(shí)代。根據(jù)實(shí)驗(yàn)數(shù)據(jù)顯示,Llama4Behemoth在MMLUPro、GPQA、MATH-500等測(cè)試的數(shù)據(jù)比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

    • 華為申請(qǐng)注冊(cè)華為玄甲商標(biāo):創(chuàng)新機(jī)身架構(gòu) 提升抗摔能力

      近日,據(jù)天眼查知識(shí)產(chǎn)權(quán)信息顯示,華為技術(shù)有限公司申請(qǐng)注冊(cè)了“華為玄甲”商標(biāo),國(guó)際分類為科學(xué)儀器,目前該商標(biāo)狀態(tài)為等待實(shí)質(zhì)審查。公開(kāi)資料表明,“華為玄甲”是華為手機(jī)采用的一種創(chuàng)新機(jī)身架構(gòu)設(shè)計(jì)。這一設(shè)計(jì)主要聚焦于提升手機(jī)的耐用性和抗摔能力,有望為手機(jī)用戶提供更可靠、更堅(jiān)固的使用體驗(yàn)。華為此次申請(qǐng)注冊(cè)該商標(biāo)?

    • 蘋(píng)果手機(jī)鬧鐘調(diào)休日不響 ColorOS陳希:不是非常理解

      4月27日,#當(dāng)蘋(píng)果鬧鐘遇上調(diào)休#話題登上微博熱搜。網(wǎng)友吐槽蘋(píng)果鬧鐘無(wú)法自動(dòng)識(shí)別調(diào)休日,導(dǎo)致很多人可能遲到。安卓廠商多年前就已解決該問(wèn)題,OPPO高管表示用戶反饋后已支持該功能。蘋(píng)果客服回應(yīng)稱用戶需手動(dòng)設(shè)置鬧鐘周期,但該問(wèn)題長(zhǎng)期未獲公司重視。此次事件凸顯智能手機(jī)在日常管理中的重要性,提醒廠商應(yīng)更注重用戶體驗(yàn)和實(shí)際需求,滿足不同場(chǎng)景下的使用習(xí)慣。

    • 微云全息(NASDAQ: HOLO)創(chuàng)新方法提升全息成像質(zhì)量, 深度圖像先驗(yàn)與寬頻超表面結(jié)合助力虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí)應(yīng)用

      微云全息(NASDAQ:HOLO)提出基于深度圖像先驗(yàn)的消色散寬頻超表面全息成像方法(DISH-HSI),解決傳統(tǒng)全息成像中色散效應(yīng)導(dǎo)致的圖像模糊問(wèn)題。該方法通過(guò)深度傳感器獲取場(chǎng)景深度信息,建立消色散寬頻超表面模型,優(yōu)化深度圖像先驗(yàn)來(lái)校正不同波長(zhǎng)光的折射偏移,實(shí)現(xiàn)高清晰度全息圖像重建。相比傳統(tǒng)方法,該技術(shù)能顯著提升成像質(zhì)量,在虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域具有廣泛應(yīng)用前景。

    • “摸魚(yú)神器”比Manus快4倍 全球首個(gè)“行動(dòng)瀏覽器”Fellou來(lái)了!

      Fellou AI推出全球首款行動(dòng)型瀏覽器Fellou,主打智能代理技術(shù),能自動(dòng)分解用戶任務(wù)并跨網(wǎng)站執(zhí)行。其搜索性能號(hào)稱比OpenAI快4倍,單次任務(wù)成本僅0.03-3元。產(chǎn)品特點(diǎn)包括:1)支持登錄式網(wǎng)站訪問(wèn);2)通過(guò)沙箱環(huán)境實(shí)現(xiàn)多網(wǎng)頁(yè)并行操作;3)內(nèi)置智能模塊自動(dòng)規(guī)劃任務(wù)流程;4)集成數(shù)據(jù)分析報(bào)告功能。目前提供Mac/PC版,Windows和移動(dòng)版計(jì)劃下半年推出。測(cè)試顯示其綜合評(píng)分優(yōu)于Deep Research等競(jìng)品,開(kāi)發(fā)者還可使用其開(kāi)源框架Eko Framework進(jìn)行擴(kuò)展開(kāi)發(fā)。

    • 聽(tīng)障女生因太美被質(zhì)疑 本人承認(rèn)微調(diào):實(shí)際沒(méi)什么變化

      西安美院聽(tīng)障女生許琬因運(yùn)動(dòng)會(huì)視頻意外走紅,其出眾外貌引發(fā)網(wǎng)友質(zhì)疑是否整容。4月22日,許琬承認(rèn)做過(guò)三項(xiàng)醫(yī)美項(xiàng)目:雙眼皮加深、鼻梁磨平及蘋(píng)果肌填充,還進(jìn)行過(guò)植發(fā)手術(shù),但強(qiáng)調(diào)"除此之外沒(méi)有其他改動(dòng)"。她表示朋友都認(rèn)為變化不明顯,只是顯得更成熟精致。針對(duì)修圖質(zhì)疑,許琬聲明社交平臺(tái)照片均為原圖未修飾,自稱本人比照片視頻更好看。對(duì)于被指像AI生成,她解釋可能與妝容有關(guān),素顏狀態(tài)會(huì)更自然。

    • ChatGPT記憶能力大幅提升:可調(diào)用所有對(duì)話

      據(jù)報(bào)道,OpenAI首席執(zhí)行官SamAltman發(fā)文稱:我們大幅提升了ChatGPT的記憶能力它現(xiàn)在可以調(diào)用你之前所有的對(duì)話內(nèi)容了!”Altman介紹稱,此功能今日面向?qū)I(yè)版用戶推出,不久后也會(huì)向升級(jí)版用戶開(kāi)放。ChatGPT付費(fèi)用戶數(shù)量已成功突破2000萬(wàn)大關(guān),與去年底的1550萬(wàn)相比,短短數(shù)月間增長(zhǎng)了近30%。

    • “優(yōu)良傳統(tǒng)”沒(méi)有丟!微軟確認(rèn)4月更新致Windows Hello失效

      微軟在4月8日發(fā)布了Windows11KB5055523累積更新,沒(méi)有忘記附贈(zèng)新Bug的優(yōu)良傳統(tǒng)”,導(dǎo)致部分用戶無(wú)法通過(guò)WindowsHello進(jìn)行登錄。微軟官方確認(rèn),安裝KB5055523更新后,部分啟用了SystemGuardSecureLaunch或DynamicRootofTrustforMeasurement功能的設(shè)備,可能會(huì)遇到WindowsHello登錄障礙。對(duì)于面部識(shí)別,用戶需要進(jìn)入設(shè)置-賬戶-登錄選項(xiàng)-面部識(shí)別”,點(diǎn)擊設(shè)置”并按照屏幕指示重新注冊(cè);對(duì)于PIN碼登錄,用戶可以在登錄界面按照提示重新設(shè)置PIN。

    • 史上最流暢小屏旗艦來(lái)了!一加13T宣布首發(fā)滿血ColorOS 15系統(tǒng)

      一加13T將首發(fā)搭載ColorOS 15系統(tǒng),號(hào)稱"史上最流暢小屏旗艦"。新系統(tǒng)采用極光引擎和潮汐引擎技術(shù),支持并行動(dòng)效渲染和芯片緩存智能分配,確保流暢體驗(yàn)。該機(jī)配備6.32英寸小屏,寬僅71.7mm,重185g,搭載驍龍8至臻版芯片和6260mAh電池,首發(fā)冰河散熱系統(tǒng)。一加中國(guó)區(qū)總裁李杰強(qiáng)調(diào)其單手操作無(wú)壓力。ColorOS 15春季升級(jí)會(huì)將于4月22日舉行,主打"流暢AI全面進(jìn)化"主題。一加13T將于4月24日正式發(fā)布。