據(jù)法新社報道,螞蟻集團近日發(fā)布了一項重要研究成果,其研發(fā)團隊利用中國本土AI芯片成功訓練出參數(shù)規(guī)模達3000億的混合專家(MoE)大模型,訓練效能媲美采用NVIDIA H800芯片的方案,同時成本降低了20%。這一突破展現(xiàn)了中國在AI基礎設施領域的自主創(chuàng)新能力。
螞蟻集團的Ling技術團隊在預印本平臺Arxiv上發(fā)表論文《每一個FLOP都至關重要:無需高級GPU即可擴展3000億參數(shù)混合專家LING大模型》,詳細介紹了這一成果。由于高性能GPU供應受限且成本高昂,螞蟻團隊通過算法優(yōu)化與硬件兼容結合的方式,使用中國本土低端芯片完成了大規(guī)模模型訓練。
研究中,螞蟻推出了兩款不同規(guī)模的MoE模型:羽量級的“百靈Ling-Lite”(168億參數(shù))和高效能的“百靈Ling-Plus”(2900億參數(shù))。其中,Ling-Plus模型在9萬億token預訓練中表現(xiàn)出色,花費僅508萬元人民幣,相比傳統(tǒng)方案節(jié)省127萬元,成本降低約20%。在多項基準測試中,該模型的表現(xiàn)與采用NVIDIA芯片訓練的同類模型如阿里巴巴的通義Qwen2.5-72B和深度求索的DeepSeek-V2.5不相上下。
這一成果的核心在于通過動態(tài)路由優(yōu)化、梯度壓縮和計算架構重構等技術,克服了中國本土芯片在算力和帶寬上的局限。這種方法“以算法補硬件不足”,為中國AI產業(yè)在外部限制下提供了新的可能性。
首先,該研究驗證了中國本土AI芯片承載大模型訓練的可行性,為華為升騰、阿里平頭哥等芯片廠商提供了重要發(fā)展路徑。其次,訓練成本的降低將使更多中小企業(yè)得以參與大模型研發(fā),推動AI應用的多元化發(fā)展。
螞蟻集團還宣布將開源相關技術,優(yōu)先應用于醫(yī)療、金融等民生領域,推動AI技術的普惠化。業(yè)內人士分析,若這一技術得到廣泛應用,中國AI產業(yè)對NVIDIA等國際芯片廠商的依賴度有望顯著下降,為中國AI技術在全球競爭中贏得更多主導權。
本文鏈接:http://m.www897cc.com/showinfo-27-138882-0.html螞蟻集團用本土AI芯片訓練大模型,成本降低20%
聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 日本九州推動“分散式”半導體園區(qū)建設,各方資源加速整合
下一篇: 德儀發(fā)布全球最小MCU,稱不懼市場競爭
標簽: