中國人工智能領域的明星企業DeepSeek近期宣布了其旗艦大語言模型的重大更新,新版本針對即將面世的新一代國產芯片進行了專門優化。
據DeepSeek介紹,此次升級采用了名為UE8M0的新型數據類型來訓練V3.1模型,這是對現有FP8格式的一種擴展,已被英偉達等業界巨頭所支持。DeepSeek在微信平臺上澄清,這一變化是為了更好地適配即將推出的國產芯片,指出“UE8M0 FP8專為新一代國產芯片設計”。
使用較低精度的數據類型帶來了諸多優勢,包括減少內存占用和提升推理及訓練速度。值得注意的是,DeepSeek之前已經在使用FP8格式中的E4M3類型。因此,轉向UE8M0更多是為了確保與新一代芯片的兼容性,而非單純追求效率提升。
雖然DeepSeek未透露新模型所適配芯片的具體制造商,但有報道稱這家AI初創公司與華為有著緊密合作,利用華為的昇騰系列神經處理單元(NPU)進行模型訓練和推理。華為的昇騰910C為其CloudMatrix機架系統提供動力,但目前不支持FP8格式,這或許意味著華為正在研發性能更強大的加速器。
有消息指出,DeepSeek曾嘗試在華為昇騰加速器上訓練其下一代R2模型,但因遇到困難而改用英偉達的H20加速器。不過,DeepSeek目前仍在評估華為加速器的推理性能。
關于R2模型,目前尚不清楚它是否就是此次發布的V3.1版本,或是另一個即將推出的模型。
值得注意的是,DeepSeek V3.1并非從零開始的全新模型,而是基于早期V3版本的檢查點進一步訓練而成。盡管如此,這一新版本在功能上有顯著改進。V3.1版本不再區分“思考型”和“非思考型”模型,而是將兩種范式整合到單一模型中,并通過聊天模板實現模式切換。因此,DeepSeek的聊天機器人界面也不再提及R1版本。
統一模型以支持推理和非推理輸出的概念并非DeepSeek首創。阿里巴巴今年早些時候也曾嘗試過類似做法,但因發現該功能降低了模型質量而放棄。然而,在基準測試中,DeepSeek的V3.1版本似乎成功避免了這一問題。與V3版本相比,V3.1的非思考模式在各項指標上都有顯著提升。
在啟用思考功能后,V3.1版本的性能提升雖然相對溫和,但DeepSeek指出,該模型現在需要更少的思考Token就能給出答案,這將有助于降低模型服務的成本。
在上下文處理能力方面,DeepSeek將V3.1版本的上下文窗口(即短期記憶)從65,536個Token擴展到131,072個,盡管這一數字仍然落后于阿里巴巴的Qwen3等其他中國模型,后者能處理高達百萬級的Token上下文。
DeepSeek還聲稱在工具和函數調用能力方面取得了重大進展,這對于需要實時檢索外部數據和調用工具的AI工作負載至關重要。例如,在針對自主瀏覽器使用任務的Browsecomp基準測試中,DeepSeek V3.1版本獲得了30分的高分,而R1版本的5月版本僅得8.9分。
除了通過聊天機器人服務和API端點提供服務外,DeepSeek還在Hugging Face和ModeScope平臺上提供了基礎模型和指令調優模型的權重下載,方便開發者進一步定制和優化。
關于DeepSeek V3.1版本的更多信息,以下是幾個常見問題及解答:
Q:DeepSeek V3.1有哪些新特點?
A:V3.1版本最大的特點是使用UE8M0數據類型進行優化,專為即將發布的國產芯片設計。同時,它整合了“思考型”和“非思考型”模型功能,在單一模型中通過聊天模板實現模式切換,并將上下文窗口的Token數量大幅提升。
Q:為什么DeepSeek要切換到UE8M0數據類型?
A:DeepSeek切換到UE8M0主要是為了與即將推出的新一代國產芯片保持兼容。盡管公司之前已在使用FP8的E4M3類型,但UE8M0是專為新一代國產芯片設計的,預示著可能有更強大的國產加速器即將面世。
Q:DeepSeek V3.1版本的性能如何?
A:在基準測試中,V3.1版本的非思考模式相比V3版本在各項指標上都有顯著提升。在工具調用方面,V3.1版本在Browsecomp瀏覽器任務測試中得分高達30分,遠超R1版本的8.9分。同時,該模型現在需要更少的思考Token就能給出答案,有助于降低服務成本。
舉報 0收藏 0打賞 0評論 0分享 0 更多>同類資訊華為云架構大調整:多部門整合,全力沖刺AI領域,目標年內盈利08-23
中國電信欒曉維詳解:云網智融戰略,驅動各行業數字化轉型在主論壇上,中國電信集團有限公司副總經理欒曉維發表題為《云網智融,賦能百業》的主旨演講,分享了中國電信在基礎設施升級、智能云體系建設、AI普惠向善的實踐成果。 在此次大會上,中國電信發布了人工智能算力優化AI…08-23
AI陪伴市場崛起,雷軍馬斯克加碼布局,長期記憶成關鍵挑戰這一熱潮背后,既有因人口結構變化而產生的現實需求驅動,也有技術端快速迭代的助力——大模型價格戰與開源趨勢大幅降低了應用門檻,使得AI陪伴產品從概念走向普及。 在市場層面,技術不成熟帶來的不確定性也導致一些廠商…08-23百度股價上揚2.15%,市值達307.64億美元,2025財年中報即將披露8月22日,百度(BIDU)開盤上漲2.15%,截至21:34,報89.49美元/股,成交3476.58萬美元,總市值307.64億美元。百度核心主要提供在線營銷服務和非營銷增值服務,以及來自新人工智能舉措的…08-23科創板AI基金8月22日凈值飆升7.79%,重倉股表現搶眼來源:新浪基金∞工作室 科創板AI成立于2025年1月6日,業績比較基準為上證科創板人工智能指數收益率。基金經理為譚躍峰。譚躍峰自2024年12月18日管理(或擬管理)該基金,任職期內收益52.83%。 最…08-23博時科創板人工智能ETF最新凈值公布,單月漲幅達7.86%來源:新浪基金∞工作室博時科創板人工智能ETF成立于2024年12月31日,業績比較基準為上證科創板人工智能指數收益率。李慶陽自2024年12月19日管理(或擬管理)該基金,任職期內收益56.15%。 最新…08-23
佑駕創新2025中期業績:總收入增46%,智能座艙業務近翻倍08-23
華為Pura80 Pro+大跳水,一英寸主攝+雙衛星通信,麒麟9020僅售6099元更值得一提的是LOFIC技術(低噪點高動態采集),這是華為給影像系統上的一顆“補心丸”。它讓手機在逆光、夜景下的成像更接近專業相機的寬容度,這也是為什么不少攝影愛好者把Pura80 Pro+稱為“口袋里的單…08-23
智能工廠:制造業數字化轉型的引擎與未來展望它讓工廠具備了“思考”與“決策”的能力,能夠實時感知生產狀態、精準預測設備故障、智能調度生產資源,使生產效率、產品質量、資源利用率等關鍵指標得到顯著提升,為制造業在激烈的全球競爭中贏得了新的發展空間與優勢。它…08-23
榮耀小折疊屏旗艦Magc V Flip2:8月28日開售,配置全面升級作為榮耀新一代小折疊屏,擁有多個亮點,比如大師高定設計、2億像素攝像頭、青海湖電池、滿級防水等,果然小折疊屏手機,離不開影像的提升,尤其是人像拍攝方面,畢竟新機傾向于女生手機市場。折疊屏提升到6.82英寸,分…08-23
NVIDIA黃仁勛急赴臺積電,或推定制AI芯片B30A應對中國市場變化此外繼續采用NVIDIA的AI芯片,將有效避免兼容問題,當前全球大多數大模型都是基于NVIDIA的CUDA生態,如此情況下,繼續采用NVIDIA的AI芯片,可以更好地兼容NVIDIA的CUDA生態,這同樣有…08-23機器人概念股走強,ETF易方達(159530)本周資金凈流入超7億值得注意的是,截至10:53,機器人ETF易方達(159530)成交額已超3億元、在同標的產品中居首,實時凈申購超1億份。 資料顯示,國證機器人產業指數選樣范圍突出人形機器人本體和核心零部件,相關個股占比近…08-23Meta身陷AI數據侵權風波,2396部影片遭非法使用,面臨3.59億索賠08-23百度蒸汽機2.0:低成本打造高質科幻視頻,影視制作新革命08-23
華為發布2025高品質醫院網絡建設指南V2.0:打造智慧醫療新生態《高品質醫院網絡建設指南V2.0》圍繞智慧醫院網絡建設,從發展趨勢、挑戰、解決方案等多方面展開,為醫院網絡建設提供全面指導。 數據中心網絡為解決傳統問題,構建高可用、高性能、易運維的數據中心,有內部和多活數…08-22點擊查看更多 +全站最新
小米汽車崛起:以高性價比挑戰保時捷,智能電動市場格局生變
小米之家昆明旗艦店開業,王曉雁透露年底3000家門店將升級
2025上半年城區領航輔助駕駛市場概覽:華為領跑,智能化加速普及
嵐圖FREE+上市價曝光,21.69萬起售,高階輔助駕駛新選擇
AI泡沫警報!OpenAI奧特曼:狂熱背后,理性與矛盾并存
京東拼拼“團店”新生態:社區團購賽道重啟,資源整合模式能否突圍?熱門內容
DeepSeek V3.1大模型升級,適配國產新芯片,性能顯著提升
中國電信欒曉維詳解:云網智融戰略,驅動各行業數字化轉型
AI陪伴市場崛起,雷軍馬斯克加碼布局,長期記憶成關鍵挑戰
佑駕創新2025中期業績:總收入增46%,智能座艙業務近翻倍
華為Pura80 Pro+大跳水,一英寸主攝+雙衛星通信,麒麟9020僅售6099元
智能工廠:制造業數字化轉型的引擎與未來展望
本文鏈接:http://m.www897cc.com/showinfo-45-26878-0.htmlDeepSeek V3.1大模型升級,適配國產新芯片,性能顯著提升
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com