AI界近期迎來了一項由華人科研團隊帶來的突破性進展,他們探索了擴散語言模型在Token數(shù)量受限條件下的表現(xiàn),發(fā)現(xiàn)其數(shù)據(jù)學(xué)習(xí)能力遠超自回歸模型,展現(xiàn)出了三倍的優(yōu)勢。這一發(fā)現(xiàn)無疑為語言模型的訓(xùn)練策略開辟了全新的視角。
這項研究的核心成果是一個擁有10億參數(shù)的擴散模型,在僅使用10億Token進行480輪訓(xùn)練后,它在HellaSwag和MMLU兩項基準測試中分別取得了56%和33%的準確率。值得注意的是,這一過程中并未采用任何特殊技巧或數(shù)據(jù)篩選方法。更令人矚目的是,即便在數(shù)據(jù)高度重復(fù)的訓(xùn)練環(huán)境中,該模型的表現(xiàn)也未出現(xiàn)飽和跡象,這顯示了其從同一數(shù)據(jù)源中提取更多有價值信息的非凡能力。
深入剖析后,研究人員指出擴散語言模型之所以擁有如此強大的學(xué)習(xí)能力,主要得益于兩大因素。一方面,擴散模型通過引入雙向建模和擴散目標,打破了傳統(tǒng)自回歸模型在處理數(shù)據(jù)時面臨的因果局限,從而能夠更深入地挖掘數(shù)據(jù)中的信息。另一方面,擴散模型在計算密度上的優(yōu)勢顯著,它在訓(xùn)練和推理階段投入更多計算資源,通過多次迭代數(shù)據(jù)優(yōu)化預(yù)測,進而提升了整體性能。
盡管擴散模型在數(shù)據(jù)重復(fù)利用方面表現(xiàn)出一定的穩(wěn)定性,但研究團隊也觀察到,隨著訓(xùn)練周期的增加,模型存在過擬合的風(fēng)險。然而,一個令人意外的發(fā)現(xiàn)是,即便在過擬合的情況下,模型在后續(xù)任務(wù)中的表現(xiàn)并未立即下滑,有時甚至?xí)兴嵘_@背后的原因在于,驗證損失的變化與下游任務(wù)準確率之間并非總是線性相關(guān),模型在處理有限訓(xùn)練數(shù)據(jù)時,可能會對某些文本片段產(chǎn)生過度自信的現(xiàn)象。
此次研究成果不僅為AI模型的訓(xùn)練策略提供了新的靈感,特別是在Token數(shù)量受限的情境下,擴散語言模型的應(yīng)用潛力巨大。接下來,研究團隊計劃進一步擴大模型規(guī)模,并引入更多樣化的數(shù)據(jù),以期進一步驗證并拓展這些令人振奮的發(fā)現(xiàn)。
舉報 0收藏 0打賞 0評論 0分享 0 更多>同類資訊AI與機器人領(lǐng)域新動向:華為發(fā)布UCM技術(shù),宇樹雙重身份亮相機器人運動會機器人ETF(562500)是全市場唯一規(guī)模破百億、流動性最佳、覆蓋中國機器人產(chǎn)業(yè)鏈最全的機器人主題ETF,助力投資者一鍵布局中國機器人產(chǎn)業(yè)。 科創(chuàng)人工智能ETF華夏(589010)是機器人的大腦,20%漲…08-13
蘋果否認偏袒ChatGPT,回應(yīng)馬斯克指控:App Store公平無偏見蘋果公司近日就埃隆·馬斯克對其App Store平臺提出的指控作出了正式回應(yīng)。馬斯克此前指責(zé)蘋果偏袒OpenAI的ChatGPT應(yīng)用,在App Store中存在不公平待遇。蘋果公司在回應(yīng)中強調(diào),App Store始終秉持公平、無偏見的原則運營。“我們的平臺旨在為用戶提供安全的發(fā)現(xiàn)體驗,同時08-13蘋果新Siri:年底亮相,能否重塑iPhone交互體驗?08-13
AI時代下的安全守護:中國電信構(gòu)建全方位AI安全保障體系在2025世界人工智能大會中,中國信息通信研究院、中國電子信息產(chǎn)業(yè)發(fā)展研究院、清華大學(xué)、上海人工智能實驗室等四家核心機構(gòu)聯(lián)合發(fā)布《中國人工智能安全承諾框架》,在《框架》在AIIA《人工智能安全承諾》(202…08-13
精準脈動:GPS網(wǎng)絡(luò)授時服務(wù)器,現(xiàn)代數(shù)字世界的隱形基石在這背后,GPS網(wǎng)絡(luò)授時服務(wù)器扮演著關(guān)鍵角色,成為維持社會高效運轉(zhuǎn)的隱形基礎(chǔ)設(shè)施。 盡管GPS信號易受環(huán)境或人為干擾,現(xiàn)代授時服務(wù)器通常采用多源冗余策略,例如結(jié)合北斗、GLONASS等衛(wèi)星系統(tǒng),或在本地部署銣…08-13
中國科學(xué)家刷新無缺陷原子陣列規(guī)模紀錄,量子計算關(guān)鍵技術(shù)獲重大突破美國2025年已將量子倡議新法案追加27億美元,我國將量子技術(shù)提升至國家戰(zhàn)略高度,相關(guān)領(lǐng)域政策密集落地。目前量子科技行業(yè)正經(jīng)歷從實驗室向商業(yè)化的加速轉(zhuǎn)型,包括谷歌、亞馬遜等科技巨頭均已制定量子計算路線圖,并在…08-13
蘋果否認偏袒ChatGPT,回應(yīng)馬斯克指控:App Store公平無偏見然而,馬斯克于昨日威脅要對蘋果公司提起訴訟,聲稱蘋果公司偏袒 ChatGPT,違反了反壟斷法規(guī)。此外IT之家注意到,馬斯克還聲稱蘋果公司拒絕將 X 或 Grok 應(yīng)用列入 App Store 的“必備應(yīng)用…08-13
萌趣吉星貓AI鬧鐘大揭秘:內(nèi)置訊飛星火,寓教于樂新體驗內(nèi)部主要配置方面,吉星貓AI智能鬧鐘內(nèi)置1500mA 18650鋰電池供電;搭載大尺寸動圈喇叭和駐極體麥克風(fēng),用于語音交互;主板上,采用了Allwinner全志XR872微控制器,Puya普冉PY25Q12…08-13易方達中證人工智能ETF聯(lián)接A:8月凈值漲3.13%,年內(nèi)累計漲幅達20.9%現(xiàn)任易方達基金管理有限公司易方達中證科技50交易型開放式指數(shù)證券投資基金基金經(jīng)理(自2020年3月16日起任職)、易方達中證人工智能主題交易型開放式指數(shù)證券投資基金基金經(jīng)理(自2020年7月27日起任職)、易…08-13靈童·念NIA - F01女團機器人拍賣成交,京東Joy Inside智能體加持引關(guān)注08-132025年AI伴侶應(yīng)用市場蓬勃發(fā)展,預(yù)計年收入超1.2億美元08-13阿爾特曼新創(chuàng)腦機接口公司Merge Labs,或成Neuralink強勁對手08-13AI公司Midjourney版權(quán)風(fēng)波:迪士尼環(huán)球影業(yè)指控下的合理使用抗辯08-13昆侖萬維發(fā)布Skywork UniPic2.0:多模態(tài)AI領(lǐng)域迎來新突破08-13AI初創(chuàng)Perplexity豪擲345億美元,向谷歌發(fā)起Chrome瀏覽器收購戰(zhàn)08-13點擊查看更多 +全站最新
高德地圖全面AI化:打造AI原生智能體,引領(lǐng)出行新體驗
ETF大廠華泰柏瑞面臨6800億規(guī)模挑戰(zhàn),競爭白熱化前路荊棘
鋰電巨頭欣旺達赴港IPO,首富家族巨額套現(xiàn)后融資引關(guān)注
皇氏集團業(yè)績連年下滑,資產(chǎn)負債率創(chuàng)新高,乳業(yè)龍頭面臨挑戰(zhàn)
四川藤椒油大王,幺麻子年營收6億沖刺北交所IPO
昌碩科技撤離中國:十萬工人生計受影響,中國制造加速轉(zhuǎn)型熱門內(nèi)容
蘋果否認偏袒ChatGPT,回應(yīng)馬斯克指控:App Store公平無偏見
AI時代下的安全守護:中國電信構(gòu)建全方位AI安全保障體系
精準脈動:GPS網(wǎng)絡(luò)授時服務(wù)器,現(xiàn)代數(shù)字世界的隱形基石
中國科學(xué)家刷新無缺陷原子陣列規(guī)模紀錄,量子計算關(guān)鍵技術(shù)獲重大突破
蘋果否認偏袒ChatGPT,回應(yīng)馬斯克指控:App Store公平無偏見
萌趣吉星貓AI鬧鐘大揭秘:內(nèi)置訊飛星火,寓教于樂新體驗
本文鏈接:http://m.www897cc.com/showinfo-45-26116-0.html華人團隊突破Token限制,擴散模型學(xué)習(xí)潛力超自回歸三倍
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com