无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

<nav id="i6sum"><center id="i6sum"></center></nav>

<tfoot id="i6sum"><tbody id="i6sum"></tbody></tfoot>

LongLoRA：提升LLM上下文能力的創(chuàng)新微調(diào)方法

2023-10-07 08:55 · 稿源：站長(zhǎng)之家

要點(diǎn):
1. LongLoRA是一種創(chuàng)新的微調(diào)方法，可以顯著增強(qiáng)大語(yǔ)言模型的上下文處理能力，而無(wú)需消耗大量算力資源。
2. LongLoRA采用了兩大步驟的高效微調(diào)方法，包括使用轉(zhuǎn)變短注意力（S2-Attn）和有效擴(kuò)大上下文的技巧，可以在不同任務(wù)上取得出色的結(jié)果。
3. LongLoRA展示了大型語(yǔ)言模型在處理更多信息時(shí)能力的提升，尤其擅長(zhǎng)處理長(zhǎng)文本和長(zhǎng)對(duì)話中的特定主題，為處理復(fù)雜任務(wù)提供了新的可能性。

站長(zhǎng)之家（ChinaZ.com）10月7日消息:LongLoRA是一種全新的微調(diào)方法，旨在提高大語(yǔ)言模型（LLM）的上下文處理能力，而無(wú)需過(guò)多的算力資源。傳統(tǒng)上，增加LLM的上下文處理能力需要大量的算力支持，但LongLoRA采用了創(chuàng)新的方法，使LLM能夠處理更長(zhǎng)的文本和更多的信息。這種方法的核心是采用了兩大步驟的高效微調(diào)方法。首先，它使用了一種稱為轉(zhuǎn)變短注意力(S2-Attn)的新型注意力形式，該方法能夠在訓(xùn)練過(guò)程中節(jié)省計(jì)算能力，同時(shí)保持了高效性。其次，LongLoRA重新挖掘了一種名為L(zhǎng)oRA的方法，用于有效擴(kuò)大訓(xùn)練信息的上下文。這個(gè)方法在與可訓(xùn)練的嵌入和規(guī)范化一起使用時(shí)非常有效。

開(kāi)源地址:https://github.com/dvlab-research/LongLoRA

論文地址:https://arxiv.org/abs/2309.12307

LongLoRA的優(yōu)勢(shì)在于它能夠在各種任務(wù)上取得出色的結(jié)果，并且可以與不同大小的LLM一起使用。它可以將用于訓(xùn)練的數(shù)據(jù)量從4k增加到100k，對(duì)于另一個(gè)模型，可以增加到32k，而所有這些都可以在一臺(tái)強(qiáng)大的計(jì)算機(jī)上完成，與其他技術(shù)兼容性良好，不會(huì)改變?cè)寄Ｐ驮O(shè)計(jì)架構(gòu)。

研究還發(fā)現(xiàn)，隨著上下文大小的增加，模型的性能更好，這證明了LongLoRA微調(diào)方法的有效性。使用更多信息進(jìn)行訓(xùn)練可以帶來(lái)更好的結(jié)果，例如，一個(gè)模型的困惑度性能從2.72降低到2.50，當(dāng)上下文窗口從8192增加到32768時(shí)。此外，LongLoRA還在處理長(zhǎng)對(duì)話中找到特定主題方面表現(xiàn)出色，與競(jìng)爭(zhēng)對(duì)手相比，它更有效地適應(yīng)開(kāi)源數(shù)據(jù)。

LongLoRA提出了一種創(chuàng)新方法，使大型語(yǔ)言模型能夠更輕松、更高效地處理大量信息，而無(wú)需消耗大量算力資源。它在處理長(zhǎng)文本和復(fù)雜任務(wù)方面表現(xiàn)出色，為語(yǔ)言模型領(lǐng)域帶來(lái)了新的可能性。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

LLM
AI頭條

薦剛剛，OpenAI發(fā)布GPT-4.1，性能暴漲、100萬(wàn)上下文

今天凌晨1點(diǎn)，OpenAI進(jìn)行了技術(shù)直播發(fā)布了最新模型——GPT-4.1。除了GPT-4.1之外，還有GPT4.1-Mini和GPT4.1-Nano兩款模型，在多模態(tài)處理、代碼能力、指令遵循、成本方面實(shí)現(xiàn)大幅度提升。特別是支持100萬(wàn)token上下文，這對(duì)于金融分析、小說(shuō)寫(xiě)作、教育等領(lǐng)域幫助巨大。由于GPT-4.1的發(fā)布，OpenAI宣布將會(huì)淘汰剛發(fā)布不久的GPT-4.5，其能力可見(jiàn)一斑。目前，如果想體驗(yàn)GPT-4.1而無(wú)法通過(guò)API身?

?GPT-4.1 ?OpenAI ?技術(shù)直播
薦1000萬(wàn)上下文！新開(kāi)源多模態(tài)大模型，單個(gè)GPU就能運(yùn)行

今年2月初，谷歌發(fā)布的Gemini2.0Pro支持200萬(wàn)上下文，震驚了整個(gè)大模型領(lǐng)域。僅過(guò)了2個(gè)月，Meta最新開(kāi)源的Llama4Scout就將上下文擴(kuò)展至1000萬(wàn)，整整提升了5倍開(kāi)啟千萬(wàn)級(jí)時(shí)代。根據(jù)實(shí)驗(yàn)數(shù)據(jù)顯示，Llama4Behemoth在MMLUPro、GPQA、MATH-500等測(cè)試的數(shù)據(jù)比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

?Gemini2.0Pro ?Llama4Scout ?上下文擴(kuò)展
華為申請(qǐng)注冊(cè)華為玄甲商標(biāo)：創(chuàng)新機(jī)身架構(gòu) 提升抗摔能力

近日，據(jù)天眼查知識(shí)產(chǎn)權(quán)信息顯示，華為技術(shù)有限公司申請(qǐng)注冊(cè)了“華為玄甲”商標(biāo)，國(guó)際分類為科學(xué)儀器，目前該商標(biāo)狀態(tài)為等待實(shí)質(zhì)審查。公開(kāi)資料表明，“華為玄甲”是華為手機(jī)采用的一種創(chuàng)新機(jī)身架構(gòu)設(shè)計(jì)。這一設(shè)計(jì)主要聚焦于提升手機(jī)的耐用性和抗摔能力，有望為手機(jī)用戶提供更可靠、更堅(jiān)固的使用體驗(yàn)。華為此次申請(qǐng)注冊(cè)該商標(biāo)?

?華為 ?商標(biāo)申請(qǐng) ?手機(jī)設(shè)計(jì)
蘋(píng)果手機(jī)鬧鐘調(diào)休日不響 ColorOS陳希：不是非常理解

4月27日，#當(dāng)蘋(píng)果鬧鐘遇上調(diào)休#話題登上微博熱搜。網(wǎng)友吐槽蘋(píng)果鬧鐘無(wú)法自動(dòng)識(shí)別調(diào)休日，導(dǎo)致很多人可能遲到。安卓廠商多年前就已解決該問(wèn)題，OPPO高管表示用戶反饋后已支持該功能。蘋(píng)果客服回應(yīng)稱用戶需手動(dòng)設(shè)置鬧鐘周期，但該問(wèn)題長(zhǎng)期未獲公司重視。此次事件凸顯智能手機(jī)在日常管理中的重要性，提醒廠商應(yīng)更注重用戶體驗(yàn)和實(shí)際需求，滿足不同場(chǎng)景下的使用習(xí)慣。

?蘋(píng)果鬧鐘 ?調(diào)休問(wèn)題 ?安卓廠商反饋
微云全息(NASDAQ: HOLO)創(chuàng)新方法提升全息成像質(zhì)量，深度圖像先驗(yàn)與寬頻超表面結(jié)合助力虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí)應(yīng)用

微云全息(NASDAQ:HOLO)提出基于深度圖像先驗(yàn)的消色散寬頻超表面全息成像方法(DISH-HSI)，解決傳統(tǒng)全息成像中色散效應(yīng)導(dǎo)致的圖像模糊問(wèn)題。該方法通過(guò)深度傳感器獲取場(chǎng)景深度信息，建立消色散寬頻超表面模型，優(yōu)化深度圖像先驗(yàn)來(lái)校正不同波長(zhǎng)光的折射偏移，實(shí)現(xiàn)高清晰度全息圖像重建。相比傳統(tǒng)方法，該技術(shù)能顯著提升成像質(zhì)量，在虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域具有廣泛應(yīng)用前景。

?全息成像 ?色散效應(yīng) ?消色散方法
“摸魚(yú)神器”比Manus快4倍全球首個(gè)“行動(dòng)瀏覽器”Fellou來(lái)了！

Fellou AI推出全球首款行動(dòng)型瀏覽器Fellou，主打智能代理技術(shù)，能自動(dòng)分解用戶任務(wù)并跨網(wǎng)站執(zhí)行。其搜索性能號(hào)稱比OpenAI快4倍，單次任務(wù)成本僅0.03-3元。產(chǎn)品特點(diǎn)包括：1）支持登錄式網(wǎng)站訪問(wèn)；2）通過(guò)沙箱環(huán)境實(shí)現(xiàn)多網(wǎng)頁(yè)并行操作；3）內(nèi)置智能模塊自動(dòng)規(guī)劃任務(wù)流程；4）集成數(shù)據(jù)分析報(bào)告功能。目前提供Mac/PC版，Windows和移動(dòng)版計(jì)劃下半年推出。測(cè)試顯示其綜合評(píng)分優(yōu)于Deep Research等競(jìng)品，開(kāi)發(fā)者還可使用其開(kāi)源框架Eko Framework進(jìn)行擴(kuò)展開(kāi)發(fā)。

?Fellou ?AI ?行動(dòng)型瀏覽器
聽(tīng)障女生因太美被質(zhì)疑本人承認(rèn)微調(diào)：實(shí)際沒(méi)什么變化

西安美院聽(tīng)障女生許琬因運(yùn)動(dòng)會(huì)視頻意外走紅，其出眾外貌引發(fā)網(wǎng)友質(zhì)疑是否整容。4月22日，許琬承認(rèn)做過(guò)三項(xiàng)醫(yī)美項(xiàng)目：雙眼皮加深、鼻梁磨平及蘋(píng)果肌填充，還進(jìn)行過(guò)植發(fā)手術(shù)，但強(qiáng)調(diào)"除此之外沒(méi)有其他改動(dòng)"。她表示朋友都認(rèn)為變化不明顯，只是顯得更成熟精致。針對(duì)修圖質(zhì)疑，許琬聲明社交平臺(tái)照片均為原圖未修飾，自稱本人比照片視頻更好看。對(duì)于被指像AI生成，她解釋可能與妝容有關(guān)，素顏狀態(tài)會(huì)更自然。

?西安美術(shù)學(xué)院 ?聽(tīng)障女大學(xué)生 ?醫(yī)美調(diào)整
ChatGPT記憶能力大幅提升：可調(diào)用所有對(duì)話

據(jù)報(bào)道，OpenAI首席執(zhí)行官SamAltman發(fā)文稱：我們大幅提升了ChatGPT的記憶能力它現(xiàn)在可以調(diào)用你之前所有的對(duì)話內(nèi)容了！”Altman介紹稱，此功能今日面向?qū)I(yè)版用戶推出，不久后也會(huì)向升級(jí)版用戶開(kāi)放。ChatGPT付費(fèi)用戶數(shù)量已成功突破2000萬(wàn)大關(guān)，與去年底的1550萬(wàn)相比，短短數(shù)月間增長(zhǎng)了近30%。

?ChatGPT ?記憶功能 ?用戶體驗(yàn)
“優(yōu)良傳統(tǒng)”沒(méi)有丟！微軟確認(rèn)4月更新致Windows Hello失效

微軟在4月8日發(fā)布了Windows11KB5055523累積更新，沒(méi)有忘記附贈(zèng)新Bug的優(yōu)良傳統(tǒng)”，導(dǎo)致部分用戶無(wú)法通過(guò)WindowsHello進(jìn)行登錄。微軟官方確認(rèn)，安裝KB5055523更新后，部分啟用了SystemGuardSecureLaunch或DynamicRootofTrustforMeasurement功能的設(shè)備，可能會(huì)遇到WindowsHello登錄障礙。對(duì)于面部識(shí)別，用戶需要進(jìn)入設(shè)置-賬戶-登錄選項(xiàng)-面部識(shí)別”，點(diǎn)擊設(shè)置”并按照屏幕指示重新注冊(cè)；對(duì)于PIN碼登錄，用戶可以在登錄界面按照提示重新設(shè)置PIN。

?Windows ?11 ?KB5055523
史上最流暢小屏旗艦來(lái)了！一加13T宣布首發(fā)滿血ColorOS 15系統(tǒng)

一加13T將首發(fā)搭載ColorOS 15系統(tǒng)，號(hào)稱"史上最流暢小屏旗艦"。新系統(tǒng)采用極光引擎和潮汐引擎技術(shù)，支持并行動(dòng)效渲染和芯片緩存智能分配，確保流暢體驗(yàn)。該機(jī)配備6.32英寸小屏，寬僅71.7mm，重185g，搭載驍龍8至臻版芯片和6260mAh電池，首發(fā)冰河散熱系統(tǒng)。一加中國(guó)區(qū)總裁李杰強(qiáng)調(diào)其單手操作無(wú)壓力。ColorOS 15春季升級(jí)會(huì)將于4月22日舉行，主打"流暢AI全面進(jìn)化"主題。一加13T將于4月24日正式發(fā)布。

?一加13T ?ColorOS ?15

熱文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

站長(zhǎng)商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<s id="e8wsw"><acronym id="e8wsw"></acronym></s>

<pre id="e8wsw"><small id="e8wsw"></small></pre>