隨著人工智能的快速發(fā)展,大型語言模型(LLM)在商業(yè)領(lǐng)域的應(yīng)用越來越廣泛。然而,傳統(tǒng)的微調(diào)方法往往需要耗費大量的運算資源和成本,這對于資源有限的企業(yè)來說是一個巨大的阻礙。
為了解決這個問題,史丹佛大學(xué)和加州大學(xué)柏克萊分校(UC Berkeley)的研究團隊共同開發(fā)了一種名為S-LoRA的創(chuàng)新技術(shù),該技術(shù)可以大幅降低微調(diào)LLM的成本,讓企業(yè)能夠在單一圖形處理單元(GPU)上運行數(shù)百個甚至數(shù)千個模型。
傳統(tǒng)上,微調(diào)LLM需要使用新的范例,重新訓(xùn)練預(yù)訓(xùn)練模型并調(diào)整所有參數(shù)。然而,LLM通常擁有數(shù)十億個參數(shù),因此需要大量的運算資源。S-LoRA技術(shù)通過參數(shù)高效微調(diào)法(PEFT)解決了這個問題。
LoRA是一種由微軟開發(fā)的低端適應(yīng)款模型,它可以降低可訓(xùn)練參數(shù)的數(shù)量,同時維持準確度,從而大幅減少定制化模型所需的存儲器和運算資源。S-LoRA則擁有動態(tài)存儲器管理系統(tǒng),可以在主存儲器(RAM)和GPU之間靈活切換LoRA適配器。
S-LoRA系統(tǒng)還引入了“統(tǒng)一分頁”(Unified Paging),讓服務(wù)器能夠處理數(shù)百個甚至數(shù)千個批量的查詢,而不會出現(xiàn)存儲器碎片化問題。此外,S-LoRA還整合了“張量平行系統(tǒng)”(Tensor parallelism)。
這些特點使得S-LoRA能夠在單一GPU或多個GPU上服務(wù)許多LoRA適配器。最顯著的成就是,S-LoRA能夠同時服務(wù)2,000個適配器。
目前,S-LoRA的程序碼已經(jīng)公布在GitHub上。研究人員計劃將其整合到當(dāng)今流行的LLM服務(wù)架構(gòu)中,這樣企業(yè)就可以輕松地將S-LoRA融入自家應(yīng)用程序,以最小的成本享受定制化的LLM驅(qū)動服務(wù)。
本文鏈接:http://m.www897cc.com/showinfo-27-38475-0.htmlS-LoRA技術(shù):減輕企業(yè)LLM部署負擔(dān)
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com