日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 軟件

LLM上下文窗口突破200萬!無需架構變化+復雜微調,輕松擴展8倍

來源: 責編: 時間:2024-04-29 16:13:57 235觀看
導讀大型語言模型(LLM)往往會追求更長的「上下文窗口」,但由于微調成本高、長文本稀缺以及新token位置引入的災難值(catastrophic values)等問題,目前模型的上下文窗口大多不超過128k個token。最近,Microsoft Research的研究人員

大型語言模型(LLM)往往會追求更長的「上下文窗口」,但由于微調成本高、長文本稀缺以及新token位置引入的災難值(catastrophic values)等問題,目前模型的上下文窗口大多不超過128k個token。2cw28資訊網——每日最新資訊28at.com

最近,Microsoft Research的研究人員提出了一個新模型LongRoPE,首次將預訓練 LLM 的上下文窗口擴展到了2048k個token,在256k的訓練長度下只需要1000個微調步驟即可,同時還能保持原始短上下文窗口的性能。2cw28資訊網——每日最新資訊28at.com

圖片圖片2cw28資訊網——每日最新資訊28at.com

論文鏈接:https://arxiv.org/abs/2402.137532cw28資訊網——每日最新資訊28at.com

代碼鏈接:https: //github.com/microsoft/LongRoPE2cw28資訊網——每日最新資訊28at.com

LongRoPE主要包含了三個關鍵創新點:2cw28資訊網——每日最新資訊28at.com

1. 通過高效搜索識別并利用了位置插值中的兩種非均勻性,為微調提供了更好的初始化,并在非微調情況下實現了 8 倍擴展;2cw28資訊網——每日最新資訊28at.com

2. 引入了漸進擴展策略,首先微調 256k 長度的 LLM,然后在微調擴展的LLM上進行第二次位置插值,以實現 2048k 上下文窗口;2cw28資訊網——每日最新資訊28at.com

3. 在8k長度上重新調整 LongRoPE以恢復短上下文窗口性能。2cw28資訊網——每日最新資訊28at.com

在 LLaMA2 和 Mistral 上對各種任務進行的大量實驗證明了該方法的有效性。2cw28資訊網——每日最新資訊28at.com

通過 LongRoPE 擴展的模型保留了原始架構,只對位置嵌入稍作修改,并且可以重復使用大部分已有的優化。2cw28資訊網——每日最新資訊28at.com

位置插值的不均勻性

Transformer模型需要明確的位置信息,通常以位置嵌入(position embedding)的形式來表示輸入token的順序。2cw28資訊網——每日最新資訊28at.com

本文中的位置嵌入表示方法主要來自于RoPE, 對于位置索引為 n 的標記,其相應的 RoPE 編碼可簡化如下:2cw28資訊網——每日最新資訊28at.com

圖片圖片2cw28資訊網——每日最新資訊28at.com

其中,d 是嵌入維度,nθi 是標記在位置 n 上的旋轉角度,θi = θ -2i/d 表示旋轉頻率。在 RoPE 中,θ 的默認基準值為 10000。2cw28資訊網——每日最新資訊28at.com

受 NTK 和 YaRN 的啟發,研究人員注意到這兩個模型可以從非線性嵌入中獲得性能提升,特別是在考慮 RoPE 各維度的不同頻率以進行專門的內插法和外推法時。2cw28資訊網——每日最新資訊28at.com

然而,當前的非線性在很大程度上依賴于人為設計的規則。2cw28資訊網——每日最新資訊28at.com

這也自然引出了兩個問題:2cw28資訊網——每日最新資訊28at.com

1. 當前的位置插值是否是最佳的?2cw28資訊網——每日最新資訊28at.com

2. 是否存在尚未探索的非線性?2cw28資訊網——每日最新資訊28at.com

圖片圖片2cw28資訊網——每日最新資訊28at.com

為了回答這些問題,研究人員使用進化搜索(evolution search)為LLaMA2-7B發現更好的非均勻位置插值。搜索以易錯性為指導,使用來自PG19驗證集的5個隨機樣本。2cw28資訊網——每日最新資訊28at.com

通過實證分析,研究人員總結了幾個主要發現。2cw28資訊網——每日最新資訊28at.com

發現1:RoPE維度表現出很大的不均勻性,目前的位置插值方法無法有效處理這些不均勻性;2cw28資訊網——每日最新資訊28at.com

在公式 2 中為每個 RoPE 維度搜索最佳 λ。2cw28資訊網——每日最新資訊28at.com

圖片圖片2cw28資訊網——每日最新資訊28at.com

研究人員對比了PG19和Proof-pile測試集上使用不同方法的 LLaMA2-7B 在不進行微調的情況下的復雜度。2cw28資訊網——每日最新資訊28at.com

圖片圖片2cw28資訊網——每日最新資訊28at.com

從結果來看,搜索到的解決方案有明顯改善,表明當前的線性(PI,positional interpolation)和非均勻(Dynamic-NTK 和 YaRN)插值方法都不是最佳的。2cw28資訊網——每日最新資訊28at.com

值得注意的是,YaRN 在 PG19 上的表現不如 PI 和 NTK,因為其達不到非微調 LLM 的目標上下文窗口長度。2cw28資訊網——每日最新資訊28at.com

例如,在 8k 上下文大小的情況下,YaRN 的困惑度在 7k 后達到峰值。2cw28資訊網——每日最新資訊28at.com

通過搜索,公式 2 中的重標度(rescaled)因子λ變得不均勻,與PI、NTK的公式計算和YaRN的分組計算中的固定標度s有所不同。2cw28資訊網——每日最新資訊28at.com

在8k和16k上下文窗口中,這些非均勻因子大大提高了LLaMA2的語言建模性能(即復雜度),而無需進行微調,主要是因為由此產生的位置嵌入有效地保留了原始的RoPE,尤其是關鍵維度,從而降低了LLM區分近似token位置的難度。2cw28資訊網——每日最新資訊28at.com

發現2:輸入序列中初始詞塊的RoPE推斷應減少插值;2cw28資訊網——每日最新資訊28at.com

對于輸入序列中的初始n個token,假設RoPE應該做較少的插值,這是因為會獲得較大的注意力分數,從而對注意力層至關重要,正如在Streaming LLM和 LM-Infinite 中觀察到的那樣。2cw28資訊網——每日最新資訊28at.com

為了驗證這一點,研究人員使用PI和NTK將上下文窗口擴展到 8k 和 16k,保留前 n(0,2, ..., 256)個token,不進行插值。當n=0 時,則恢復到原來的 PI 和 NTK。2cw28資訊網——每日最新資訊28at.com

圖片圖片2cw28資訊網——每日最新資訊28at.com

上表中可以觀察到兩個結果:2cw28資訊網——每日最新資訊28at.com

1. 保留起始token而不進行位置插值確實能提高性能。2cw28資訊網——每日最新資訊28at.com

2. 最佳起始token數n取決于目標擴展長度。2cw28資訊網——每日最新資訊28at.com

發現3:在微調和非微調設置中,非均勻位置插值都能有效擴展 LLM 上下文窗口。2cw28資訊網——每日最新資訊28at.com

雖然已經證明,在不進行微調的情況下,搜索到的非均勻位置插值能顯著提高8k和16k擴展性能,但更長的擴展需要微調。2cw28資訊網——每日最新資訊28at.com

因此使用搜索到的RoPE對LLaMA2-7B的64k上下文窗口大小進行了微調。2cw28資訊網——每日最新資訊28at.com

圖片圖片2cw28資訊網——每日最新資訊28at.com

從結果中可以看到,在微調LLaMA2-7B之前和之后,該方法都明顯優于PI和YaRN,主要原因是有效地使用了非均勻位置插值、最小化信息損失,以及為微調提供了更好的初始化。2cw28資訊網——每日最新資訊28at.com

受上述發現的啟發,研究人員提出了LongRoPE,首先引入了一種高效的搜索算法,以充分利用這兩種不均勻性,并將LLM上下文窗口擴展到 200 萬個token。2cw28資訊網——每日最新資訊28at.com

圖片圖片2cw28資訊網——每日最新資訊28at.com

具體形式化算法參見原文。2cw28資訊網——每日最新資訊28at.com

實驗結果

研究人員將LongRoPE應用于LLaMA2-7B和Mistral-7B模型上,并從三個方面對其性能進行了評估:2cw28資訊網——每日最新資訊28at.com

1. 長文檔中擴展上下文 LLM 的困惑度;2cw28資訊網——每日最新資訊28at.com

2. 密鑰(passkey)檢索任務,該任務衡量模型從大量無關文本中檢索簡單密鑰的能力;2cw28資訊網——每日最新資訊28at.com

3. 4096上下文窗口的標準LLM基準;2cw28資訊網——每日最新資訊28at.com

在256k范圍內進行長序列語言建模。2cw28資訊網——每日最新資訊28at.com

在Proof-pile和PG19上通過不同插值方法擴展的 LLaMA2 和 Mistral 的困惑度。2cw28資訊網——每日最新資訊28at.com

從實驗結果中可以得出兩個關鍵的結論:2cw28資訊網——每日最新資訊28at.com

1. 從 4k 到 256k 的評估長度來看,擴展模型展現出整體困惑度下降的趨勢,表明模型有能力利用更長的上下文;2cw28資訊網——每日最新資訊28at.com

2. 即使在上下文窗口長度為 16 倍的情況下(這通常是在較短上下文長度下保持性能所面臨的挑戰),我們的 LongRoPE-2048k 模型在 256k 上下文長度內的性能仍優于最先進的基線模型。2cw28資訊網——每日最新資訊28at.com

圖片圖片2cw28資訊網——每日最新資訊28at.com

圖片圖片2cw28資訊網——每日最新資訊28at.com

超過2000k的長序列語言建模

為了評估超長文檔的有效性,研究人員使用了Books3數據集。2cw28資訊網——每日最新資訊28at.com

為了評估效率,隨機選擇20本書,每本長度超過2048k個token,并使用256k的滑動窗口。2cw28資訊網——每日最新資訊28at.com

圖片圖片2cw28資訊網——每日最新資訊28at.com

從結果中可以看出,LongRoPE成功地將LLaMA2-7B和Mistral-7B的上下文窗口擴展到2048k,同時還在8k-128k的較短長度內實現了與基線相當或更好的困惑度。2cw28資訊網——每日最新資訊28at.com

還可以觀察到2048k LLaMA2和Mistral之間的顯著性能差異:Mistral在較短的長度上優于基線,但困惑度在超過256k長度時達到7。2cw28資訊網——每日最新資訊28at.com

LLaMA2的性能與預期一致:隨著時間的延長,困惑感會有所減少,在1024k和2048k時略有增加。2cw28資訊網——每日最新資訊28at.com

此外,在LLaMA2上,LongRoPE-2048k在256k比128k的微調長度下表現更好,主要是由于次級延伸比(secondary extension ratio)更小(即8倍對16倍)。2cw28資訊網——每日最新資訊28at.com

相比之下,Mistral在微調128k的窗口大小方面表現更好,主要原因是對于Mistral的128k和256k微調,研究人員遵循YaRN的設置使用16k訓練長度,影響了Mistral在微調后進一步擴展上下文窗口的能力。2cw28資訊網——每日最新資訊28at.com

參考資料:2cw28資訊網——每日最新資訊28at.com

https://arxiv.org/abs/2402.137532cw28資訊網——每日最新資訊28at.com

本文鏈接:http://m.www897cc.com/showinfo-26-86504-0.htmlLLM上下文窗口突破200萬!無需架構變化+復雜微調,輕松擴展8倍

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 早知如此!來看看 Python 函數的七個秘密

下一篇: 首屆AI方程式大賽,8圈開了一個小時

標簽:
  • 熱門焦點
Top 日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不
1024亚洲| 国产亚洲欧美一区在线观看| 欧美日韩成人在线观看| 亚洲字幕一区二区| 亚洲国产高清一区| 国产亚洲欧美日韩美女| 欧美三区免费完整视频在线观看| 久久久久久久久久久久久久一区 | 亚洲午夜一区二区| 永久免费精品影视网站| 国产精品久久久久久久久久久久| 欧美国产日韩在线| 老牛国产精品一区的观看方式| 亚洲欧美在线看| 一本大道久久a久久精品综合| 亚洲激情欧美| 亚洲经典自拍| 亚洲综合首页| 欧美www视频在线观看| 男同欧美伦乱| 欧美激情视频免费观看| 欧美激情一区二区三区四区| 国产精品乱码人人做人人爱| 亚洲福利电影| 久久天天躁狠狠躁夜夜av| 亚洲欧美网站| 亚洲欧美久久久| 免费成人黄色av| 国产精品久久毛片a| 在线观看91久久久久久| 91久久久久久国产精品| 亚洲福利一区| 性欧美video另类hd性玩具| 亚洲主播在线| 亚洲欧美日韩一区| 欧美一区二区三区免费视| 你懂的视频欧美| 毛片基地黄久久久久久天堂| 欧美成人日韩| 欧美日韩亚洲一区三区| 欧美日韩国产成人| 欧美日韩影院| 国产精品日韩精品欧美在线| 国产精品一区毛片| 国产一区二区三区网站| 激情六月婷婷久久| 在线观看成人av电影| 亚洲国产一区在线| 亚洲精品久久久一区二区三区| 亚洲人成在线播放| 久久久www成人免费无遮挡大片| 久久综合九色综合久99| 猫咪成人在线观看| 欧美人与性动交cc0o| 欧美日韩综合| 亚洲黄色有码视频| 久久亚裔精品欧美| 欧美日韩精品伦理作品在线免费观看 | 国产精品久久久久久久7电影| 亚洲国产日日夜夜| 亚洲欧美亚洲| 欧美图区在线视频| 国产一区二区成人久久免费影院| 亚洲一级免费视频| 久久精品盗摄| 欧美精品粉嫩高潮一区二区| 欧美系列精品| 激情综合色丁香一区二区| 亚洲欧洲精品一区二区精品久久久 | 欧美日韩三区| 亚洲精品看片| 欧美国产综合视频| 国产精品私房写真福利视频| 国产欧美va欧美不卡在线| 在线成人欧美| 亚洲欧美精品中文字幕在线| 欧美日韩国产综合新一区| 91久久久久久国产精品| 欧美成人中文| 亚洲人永久免费| 欧美顶级大胆免费视频| 国产日本亚洲高清| 亚洲激情网站| 欧美www视频在线观看| 亚洲黑丝在线| 欧美激情视频免费观看| 国产日韩欧美黄色| 一区二区三区 在线观看视| 欧美在线地址| 欧美色图一区二区三区| 中文有码久久| 蜜桃久久精品乱码一区二区| 在线观看不卡av| 欧美a级大片| 亚洲精品色图| 欧美午夜精品久久久久久孕妇| 亚洲一区二区三区精品视频| 欧美极品色图| 一区二区三区四区国产| 美女国产精品| 亚洲日韩欧美视频| 欧美体内she精视频在线观看| 国产精品高清在线| 精品动漫一区| 欧美xx69| 亚洲社区在线观看| 国产精品三上| 久久精品一区二区三区四区 | 欧美伦理91| 中日韩在线视频| 国产精品一区二区久久| 久久久国产精品一区二区中文| 尤物视频一区二区| 欧美国产精品v| 亚洲午夜激情| 国产综合色产在线精品| 欧美高清成人| 亚洲在线中文字幕| 激情成人av| 午夜精品电影| 欧美三级乱码| 欧美伊久线香蕉线新在线| 国产精品久久久久毛片软件| 99ri日韩精品视频| 牛牛影视久久网| 一区二区三区精品视频| 欧美成人一品| 亚洲一区二区三区777| 欧美第一黄色网| 亚洲天堂av高清| 国内欧美视频一区二区| 欧美亚洲系列| 亚洲国产欧美一区二区三区久久| 欧美日一区二区在线观看 | 国产精品红桃| 久久一区二区三区四区| 韩国女主播一区二区三区| 欧美在线国产| 亚洲免费久久| 欧美日韩在线播放一区二区| 99国产精品| 欧美精品一区二区三区一线天视频| 亚洲激情六月丁香| 欧美国产丝袜视频| 亚洲淫性视频| 亚洲国产精品久久久久| 国产精品美女999| 欧美亚洲一区在线| 国产欧美日韩亚州综合| 欧美成人精品不卡视频在线观看| 亚洲永久在线观看| 亚洲黄色毛片| 国产一区二区三区四区老人| 欧美体内谢she精2性欧美| 亚洲在线第一页| 91久久精品一区二区别| 国产欧美日韩| 欧美日韩一区二区精品| 噜噜爱69成人精品| 欧美一区二区三区另类| 一本大道久久a久久综合婷婷| 在线国产日韩| 国产一级久久| 国产精品青草综合久久久久99| 欧美成人r级一区二区三区| 欧美专区在线| 亚洲第一页在线| 欧美日韩麻豆| 欧美一区精品| 精品成人a区在线观看| 国产精品扒开腿做爽爽爽软件 | 久久精品视频在线播放| 亚洲国产女人aaa毛片在线| 国产日韩精品在线观看| 国产精品v欧美精品v日韩精品| 欧美刺激性大交免费视频| 久久久久久久欧美精品| 亚洲精品美女久久久久| 在线播放精品| 国内视频一区| 国产日韩欧美91| 国产精一区二区三区| 国产精品国产馆在线真实露脸| 性感少妇一区| 亚洲欧美另类在线观看| 亚洲福利精品| 激情欧美一区二区| 国内精品美女av在线播放| 国产欧美一区二区精品忘忧草| 国产精品家教| 国产精品久久久久久户外露出 | 国产欧美综合在线| 女女同性女同一区二区三区91| 久久久精品国产免大香伊 | 国产精品一区二区三区久久| 另类专区欧美制服同性| 久久精品国产77777蜜臀| 久久福利视频导航| 一区二区三区欧美成人| 欧美日韩在线视频观看| 免费在线视频一区| 午夜宅男欧美| 午夜精品视频在线观看| 性色av香蕉一区二区|