當前位置：首頁 > 元宇宙 > AI

DeepSeek 一句話讓國產芯片集體暴漲，背后的 UE8M0 FP8 到底是什么

來源：責編：時間：2025-08-27 17:09:11 73觀看

導讀 DeepSeek V3.1 發布后，一則官方留言讓整個 AI 圈都轟動了：新的架構、下一代國產芯片，總共短短不到 20 個字，卻蘊含了巨大信息量。國產芯片企業股價也跟風上漲，比如寒武紀今日早盤盤中大漲近 14%，總市值躍居科創板頭

DeepSeek V3.1 發布后，一則官方留言讓整個 AI 圈都轟動了：

新的架構、下一代國產芯片，總共短短不到 20 個字，卻蘊含了巨大信息量。

國產芯片企業股價也跟風上漲，比如寒武紀今日早盤盤中大漲近 14%，總市值躍居科創板頭名。

半導體 ETF，同樣也是在半天的時間里大漲 5.89%。（不知道作為放出消息的 DeepSeek 背后公司幻方量化，有沒有趁機炒一波【手動狗頭】）

這個 UE8M0 FP8 到底是個啥？下一代國產芯片，又是指什么？

接踵而來的疑問，擠爆了人們的大腦。

在知乎上，也有不少大神開始邊科普邊分析自己對這件事的理解。

咱抱著學習心態，不妨就從 UE8M0 FP8 的概念開始說起。

什么是 UE8M0 FP8？

“UE8M0 FP8”這個概念，可以拆分成前后兩個部分來解釋，前面的 UE8M0，是 MXFP8 路徑里的“縮放因子”。

MXFP8 是 Open Compute Project 在 2023 年發布的《Microscaling (MX) Formats Specification v1.0》里定義的 8 bit 微縮塊格式。

Open Compute Project 是 2011 年由 Facebook（現 Meta）聯合英特爾、Rackspace 等發起的開源硬件協作計劃，目的是通過共享數據中心及服務器設計推動行業效率提升。

其成員陣容相當強大，國外還有微軟、谷歌、亞馬遜、AMD、英偉達等，而國內的阿里、騰訊、百度等也參與其中。

說回 MXFP8，它以 FP8 為基礎建立，FP8 是把常規浮點格式壓縮到 8 bit 的一種編碼方式。

MXFP8 的核心思想是先把張量切成固定長度的“塊”，然后為每個塊單獨指定一個 2 的整數次冪作為“縮放因子”，把塊內所有數一起除以這個系數后再寫成 FP8。

這種塊級（而不是全張量級）的縮放，讓 MXFP8 既保留了 8 bit 位寬，又把可用動態范圍擴展了幾十倍。

▲ 來源英偉達技術博客

而這里的“縮放因子”也是包含 8 個 bit，其中包含符號位、指數位和尾數位，開發者可以自行將這 8 個 bit 分配給這三種不同的位。

其中符號位只區分有無，若有則占一個 bit，無則不占用，而 UE8M0 中的 U 表示的就是無符號（有符號可表示為 S 或省略不寫）。

E 和 M 則分別表示指數位和尾數位分配到的 bit 數，E8M0 指的就是 8 個 bit 全都分配給了指數位。

其他常用的格式還有 E4M3、E5M2（縮放引子外的本體部分也常采用這兩種）等，它們均包含符號位，其余 7 個 bit 在指數和尾數位之間分配。

DeepSeek 之前開源的 5.6k 星標項目 FP8 GEMM 內核 DeepGEMM 就已經支持 UE8M0，不過這個項目主要是適配英偉達芯片和 CUDA 生態。

那么，采用這種全指數表示縮放因子的方式，有什么好處呢？

首先，由于 UE8M0 不含尾數與符號位，處理器在根據縮放因子對數據進行復原時，只需要乘以對應的 2 的冪，也就是移動一下指數位，而不需要浮點乘法、規格化或舍入邏輯，縮短了時鐘關鍵路徑。

并且 UE8M0 的動態范圍覆蓋 2^(?127) 到 2^128，其指數表可輕松容納這一跨度，為后續塊縮放提供充足空間。

另外 UE8M0 還能解決單尺度 FP8 無法同時顧及大 / 小值，導致溢出或被壓成 0 的問題，將 UE8M0 作為分塊的尺度后，錯誤率曲線從整張曲線下降到一條遠低水平的橫線，在保持 8 bit 張量精度的同時大幅減少信息損失。

▲ 來源英偉達技術博客

UE8M0 FP8 的好處我們了解了，現在可以解釋為什么它更適配“下一代國產芯片”了。

大部分已量產的國產 AI 加速器仍沿用 FP16 / BF16 + INT8 的計算通路，并未集成 E4M3 / E5M2 這類完整的 FP8 乘加單元。

不過，摩爾線程 MUSA 3.1 GPU、芯原 VIP9000 NPU 等 2025 H2 首發的新款國產芯片已經在宣傳資料里列出“原生 FP8”或“Block FP8”支持，并與 DeepSeek、華為等 15 家廠商聯合驗證 UE8M0 格式。

雖然下一代國產芯片雖然已經在為 FP8 做出準備，但 HBM / LPPDDR 帶寬仍然與頂尖芯片存在較大差距。

而 UE8M0 讓一組 32 個 FP8 數據只追加 8bit 縮放引子，相比傳統的 4B（32bit） FP32 縮放直接節省 75% 的流量，這種空間節約措施被視作下一代架構的重要優化方向。

DeepSeek 為哪個國產芯片做了優化？

在搞清楚啥是 UE8M0 FP8 之后，回過神來的網友們又開始紛紛猜測：

DeepSeek 這是在說哪一家的國產芯片呢？

在官方有意賣關子的情況下，人們只好首先把目光放在了首批通過“DeepSeek 大模型適配”的 8 家廠商。

▲ 來源中國信通院官微

這當中大家看好的“頭號種子選手”當屬寒武紀，市場反應相當直觀 ——

截至今日 10:25，寒武紀盤中大漲近 14%，總市值超 4940 億元，超過中芯國際躍居科創板頭名（實際以最新為準）。

理由也很簡單，該公司旗下的 MLU370-S4、思元 590 及最新 690 系列芯片均支持 FP8 計算，在架構設計和低精度計算優化上一直相對比較領先。

而基于類似理由，海光、沐曦，中昊芯英甚至包括名單之外的摩爾線程等也都被網友們挨個點名：

海光：其深算三號 DCU 支持 FP8 計算，存在進一步優化的空間；

沐曦：今年 7 月發布的曦云 C600，也支持 FP8 精度計算；

中昊芯英：其“剎那”TPU AI 芯片支持 FP8 精度；

摩爾線程：作為國內極少數原生支持 FP8 的 GPU 廠商，旗艦產品 MTT S5000 支持 FP8 精度計算。

與此同時，一些很有可能“即將上車 FP8”的廠商也出現在了一眾盤點名單中。

例如華為昇騰，雖然昇騰 910B 和 910C 暫不支持原生 FP8，但官方路線圖已經寫明“2025Q4 原生 FP8”，所以眾人預計或將在 2026 年推出的 910D（可能的命名）很有可能是所謂的“下一代芯片”。

除了以上這些，還有一大串芯片廠商的名字出現在了討論當中，堪稱盛況空前。

雖然猜來猜去沒有最終定論，但不妨礙市場給予熱烈回應。根據最新消息，今日國產芯片概念集體高開，科創 50 大漲 3% 創近三年半新高，芯片產業鏈集體走強。

所以，大家為什么集體狂歡？這些國產芯片一旦支持 UE8M0 FP8 究竟意味著什么？

綜合當前國內外各方說法來看，一切都可以用一句話來概括：

這代表了國產 AI 正走向軟硬協同階段，能夠實質性減少對英偉達、AMD 等國外算力的依賴。

這里頭的邏輯也很簡單清晰，正是由于 UE8M0 FP8 精度格式所具備的上述優勢（更小的帶寬、更低的功耗、更高的吞吐），這意味著同樣的硬件今后能跑更大的模型，所以國產芯片的“性價比”被大幅拉高了。

換句話說，這些國產芯片廠商將在競爭中更具優勢，因此也就屬于利好了。

從另一方面來看，DeepSeek 通過改動精度格式，相當于主動貼合國產芯片的最佳性能點，這種軟硬協同的模式無疑是把國產芯片們拉進了一個統一的生態坐標系。

這就像當年的“Wintel 聯盟”一樣 —— 微軟和英特爾通過深度技術綁定，筑起了個人計算機領域的生態護城河，只不過如今換成了 DeepSeek 和國產芯片廠商們。

One More Thing

事實上，官方在正文部分提到 UE8M0 FP8 的只有一句話：

需要注意的是，DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的參數精度。

而且位置相當“隱蔽”，藏在了一大段洋洋灑灑的功能更新介紹之后。

要不是官方特意在評論區補了一句，估計大家還沒啥感覺。

所以你說它這個動作吧，不知道算無意還是刻意為之，總之是相當微妙了 (手動狗頭）。

參考鏈接：

[1]https://www.zhihu.com/question/1941891000319580108

[2]https://www.zhihu.com/question/1941882763503473149/answer/1942093625908524069

[3]https://docs.nvidia.com/cuda/nvmath-python/0.3.0/tutorials/notebooks/matmul/04_fp8.html

[4]https://www.ainvest.com/news/deepseek-ue8m0-fp8-optimization-rise-china-sufficient-ai-stack-2508/

本文來自微信公眾號：量子位（ID：QbitAI），作者：克雷西、一水，原標題《DeepSeek 一句話讓國產芯片集體暴漲！背后的 UE8M0 FP8 到底是個啥》

本文鏈接：http://m.www897cc.com/showinfo-45-27005-0.htmlDeepSeek 一句話讓國產芯片集體暴漲，背后的 UE8M0 FP8 到底是什么

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：騰訊 CodeBuddy IDE 代碼助手國內版公測，DeepSeek-V3.1 最新模型免費用

下一篇：釘釘聯合通義推出 Fun-ASR 語音識別大模型，能聽懂家裝、畜牧等十大行業黑話

標簽：

熱門焦點

亞馬遜AIGC全家桶來襲，巨頭AI大亂戰都有什么殺手锏

此前，亞馬遜云科技發布多款AIGC產品，其中包括AI大模型服務Amazon Bedrock、人工智能計算實例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”（Titan）AI大模型、軟件
“元宇宙第一股”Roblox緣何被資本市場看“低”？

近期，冬奧會的召開受到廣泛關注，而吉祥物冰墩墩也成為新晉“頂流”，“一墩難求”成為普遍心聲，為了滿足大眾需求，nWayPlay平臺曾在2月12日發售了一款由國際奧委會官
冰墩墩的NFT暴漲千倍？真相則是價格暴跌、成交遇冷

《區塊鏈日報》記者查證，近日來冰墩墩數字藏品交易數量出現大幅下滑，而所謂的暴漲千倍更是有價無市的自嗨。昨日，北京冬奧會正式閉幕。在這屆冬奧會上，吉祥物“冰
中國銀保監管委提示：謹慎投資，勿做接盤俠

中國銀保監管委，發布一則風險提示，內容圍繞防范以“元宇宙”名義進行的非法集資風險。原文如下：近期，一些不法分子蹭熱點，以“元宇宙投資項目”“元宇宙鏈游”等名
好萊塢：一股新的電影制作加密浪潮將顛覆這個行業

在Moviecoin.com平臺上，有一部電影設定了一個前所未有的目標，即通過預售NFT獲得100%的全額融資，這部電影就是馬克·奧康納(Mark O’connor)執導的《Oui Cannes》，
權限風波過后 X2Y2如何挑戰OpenSea？

繼LooksRare之后，又一個OpenSea挑戰者X2Y2來了。上周，X2Y2宣布向超過86萬個OpenSea交易用戶發放X2Y2通證空投，并啟動了「掛單挖礦」的獎勵機制。這場早期激勵活動
FTX 加密貨幣交易所開始向游戲公司提供加密服務

據媒體報道，業內領先的加密貨幣交易所FTX宣布將涉足游戲領域。該公司表示，計劃推出自己的游戲部門作為中介，專注于為傳統游戲公司提供加密相關服務。此舉將有助于
NFT行業周報：NBA巨星勒布朗·詹姆斯申請NFT相關商標

1. “無聊猿”BAYC交易總額突破14億美元3月10日，據DappRader最新數據顯示，“無聊猿”Bored Ape Yacht Club（BAYC）交易總額已突破14億美元，創下歷史新高，本文撰寫時為
淺聊DAO圖景和未來

DAO是什么？DAO (Decentralized Autonomous Organizations),去中心化自治組織，是基于區塊鏈技術，由社區通過透明的決策過程運行和管理的組織形態。DAO使得社區成為

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

DeepSeek 一句話讓國產芯片集體暴漲，背后的 UE8M0 FP8 到底是什么

亞馬遜AIGC全家桶來襲，巨頭AI大亂戰都有什么殺手锏

“元宇宙第一股”Roblox緣何被資本市場看“低”？

冰墩墩的NFT暴漲千倍？真相則是價格暴跌、成交遇冷

中國銀保監管委提示：謹慎投資，勿做接盤俠

好萊塢：一股新的電影制作加密浪潮將顛覆這個行業

權限風波過后 X2Y2如何挑戰OpenSea？

FTX 加密貨幣交易所開始向游戲公司提供加密服務

NFT行業周報：NBA巨星勒布朗·詹姆斯申請NFT相關商標

淺聊DAO圖景和未來

最新推薦

ChatGPT訪問量增速下滑，AI真的是一場泡沫嗎？

內容行業大變天，爆款全靠AI？

Web3 去中心化身份管理系統的歷史、現狀與展望

新款英特爾芯片將使NFT鑄造變得更加方便

用戶可以把自己的醫療健康數據做成NFT出售給醫藥公司掙錢

在互聯網考古后，我被豆瓣上這座元宇宙古城征服了

猜你喜歡

熱門推薦

相關資訊