DeepSeek V3.1 發布后,一則官方留言讓整個 AI 圈都轟動了:

新的架構、下一代國產芯片,總共短短不到 20 個字,卻蘊含了巨大信息量。
國產芯片企業股價也跟風上漲,比如寒武紀今日早盤盤中大漲近 14%,總市值躍居科創板頭名。
半導體 ETF,同樣也是在半天的時間里大漲 5.89%。(不知道作為放出消息的 DeepSeek 背后公司幻方量化,有沒有趁機炒一波【手動狗頭】)

這個 UE8M0 FP8 到底是個啥?下一代國產芯片,又是指什么?
接踵而來的疑問,擠爆了人們的大腦。

在知乎上,也有不少大神開始邊科普邊分析自己對這件事的理解。

咱抱著學習心態,不妨就從 UE8M0 FP8 的概念開始說起。
什么是 UE8M0 FP8?“UE8M0 FP8”這個概念,可以拆分成前后兩個部分來解釋,前面的 UE8M0,是 MXFP8 路徑里的“縮放因子”。
MXFP8 是 Open Compute Project 在 2023 年發布的《Microscaling (MX) Formats Specification v1.0》里定義的 8 bit 微縮塊格式。
Open Compute Project 是 2011 年由 Facebook(現 Meta)聯合英特爾、Rackspace 等發起的開源硬件協作計劃,目的是通過共享數據中心及服務器設計推動行業效率提升。
其成員陣容相當強大,國外還有微軟、谷歌、亞馬遜、AMD、英偉達等,而國內的阿里、騰訊、百度等也參與其中。
說回 MXFP8,它以 FP8 為基礎建立,FP8 是把常規浮點格式壓縮到 8 bit 的一種編碼方式。
MXFP8 的核心思想是先把張量切成固定長度的“塊”,然后為每個塊單獨指定一個 2 的整數次冪作為“縮放因子”,把塊內所有數一起除以這個系數后再寫成 FP8。
這種塊級(而不是全張量級)的縮放,讓 MXFP8 既保留了 8 bit 位寬,又把可用動態范圍擴展了幾十倍。

而這里的“縮放因子”也是包含 8 個 bit,其中包含符號位、指數位和尾數位,開發者可以自行將這 8 個 bit 分配給這三種不同的位。
其中符號位只區分有無,若有則占一個 bit,無則不占用,而 UE8M0 中的 U 表示的就是無符號(有符號可表示為 S 或省略不寫)。
E 和 M 則分別表示指數位和尾數位分配到的 bit 數,E8M0 指的就是 8 個 bit 全都分配給了指數位。
其他常用的格式還有 E4M3、E5M2(縮放引子外的本體部分也常采用這兩種)等,它們均包含符號位,其余 7 個 bit 在指數和尾數位之間分配。

DeepSeek 之前開源的 5.6k 星標項目 FP8 GEMM 內核 DeepGEMM 就已經支持 UE8M0,不過這個項目主要是適配英偉達芯片和 CUDA 生態。

那么,采用這種全指數表示縮放因子的方式,有什么好處呢?
首先,由于 UE8M0 不含尾數與符號位,處理器在根據縮放因子對數據進行復原時,只需要乘以對應的 2 的冪,也就是移動一下指數位,而不需要浮點乘法、規格化或舍入邏輯,縮短了時鐘關鍵路徑。
并且 UE8M0 的動態范圍覆蓋 2^(?127) 到 2^128,其指數表可輕松容納這一跨度,為后續塊縮放提供充足空間。
另外 UE8M0 還能解決單尺度 FP8 無法同時顧及大 / 小值,導致溢出或被壓成 0 的問題,將 UE8M0 作為分塊的尺度后,錯誤率曲線從整張曲線下降到一條遠低水平的橫線,在保持 8 bit 張量精度的同時大幅減少信息損失。

UE8M0 FP8 的好處我們了解了,現在可以解釋為什么它更適配“下一代國產芯片”了。
大部分已量產的國產 AI 加速器仍沿用 FP16 / BF16 + INT8 的計算通路,并未集成 E4M3 / E5M2 這類完整的 FP8 乘加單元。
不過,摩爾線程 MUSA 3.1 GPU、芯原 VIP9000 NPU 等 2025 H2 首發的新款國產芯片已經在宣傳資料里列出“原生 FP8”或“Block FP8”支持,并與 DeepSeek、華為等 15 家廠商聯合驗證 UE8M0 格式。
雖然下一代國產芯片雖然已經在為 FP8 做出準備,但 HBM / LPPDDR 帶寬仍然與頂尖芯片存在較大差距。
而 UE8M0 讓一組 32 個 FP8 數據只追加 8bit 縮放引子,相比傳統的 4B(32bit) FP32 縮放直接節省 75% 的流量,這種空間節約措施被視作下一代架構的重要優化方向。
DeepSeek 為哪個國產芯片做了優化?在搞清楚啥是 UE8M0 FP8 之后,回過神來的網友們又開始紛紛猜測:
DeepSeek 這是在說哪一家的國產芯片呢?
在官方有意賣關子的情況下,人們只好首先把目光放在了首批通過“DeepSeek 大模型適配”的 8 家廠商。

這當中大家看好的“頭號種子選手”當屬寒武紀,市場反應相當直觀 ——
截至今日 10:25,寒武紀盤中大漲近 14%,總市值超 4940 億元,超過中芯國際躍居科創板頭名(實際以最新為準)。
理由也很簡單,該公司旗下的 MLU370-S4、思元 590 及最新 690 系列芯片均支持 FP8 計算,在架構設計和低精度計算優化上一直相對比較領先。
而基于類似理由,海光、沐曦,中昊芯英甚至包括名單之外的摩爾線程等也都被網友們挨個點名:
海光:其深算三號 DCU 支持 FP8 計算,存在進一步優化的空間;
沐曦:今年 7 月發布的曦云 C600,也支持 FP8 精度計算;
中昊芯英:其“剎那”TPU AI 芯片支持 FP8 精度;
摩爾線程:作為國內極少數原生支持 FP8 的 GPU 廠商,旗艦產品 MTT S5000 支持 FP8 精度計算。
與此同時,一些很有可能“即將上車 FP8”的廠商也出現在了一眾盤點名單中。
例如華為昇騰,雖然昇騰 910B 和 910C 暫不支持原生 FP8,但官方路線圖已經寫明“2025Q4 原生 FP8”,所以眾人預計或將在 2026 年推出的 910D(可能的命名)很有可能是所謂的“下一代芯片”。
除了以上這些,還有一大串芯片廠商的名字出現在了討論當中,堪稱盛況空前。
雖然猜來猜去沒有最終定論,但不妨礙市場給予熱烈回應。根據最新消息,今日國產芯片概念集體高開,科創 50 大漲 3% 創近三年半新高,芯片產業鏈集體走強。

所以,大家為什么集體狂歡?這些國產芯片一旦支持 UE8M0 FP8 究竟意味著什么?
綜合當前國內外各方說法來看,一切都可以用一句話來概括:
這代表了國產 AI 正走向軟硬協同階段,能夠實質性減少對英偉達、AMD 等國外算力的依賴。
這里頭的邏輯也很簡單清晰,正是由于 UE8M0 FP8 精度格式所具備的上述優勢(更小的帶寬、更低的功耗、更高的吞吐),這意味著同樣的硬件今后能跑更大的模型,所以國產芯片的“性價比”被大幅拉高了。
換句話說,這些國產芯片廠商將在競爭中更具優勢,因此也就屬于利好了。
從另一方面來看,DeepSeek 通過改動精度格式,相當于主動貼合國產芯片的最佳性能點,這種軟硬協同的模式無疑是把國產芯片們拉進了一個統一的生態坐標系。
這就像當年的“Wintel 聯盟”一樣 —— 微軟和英特爾通過深度技術綁定,筑起了個人計算機領域的生態護城河,只不過如今換成了 DeepSeek 和國產芯片廠商們。
One More Thing事實上,官方在正文部分提到 UE8M0 FP8 的只有一句話:
需要注意的是,DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的參數精度。
而且位置相當“隱蔽”,藏在了一大段洋洋灑灑的功能更新介紹之后。

要不是官方特意在評論區補了一句,估計大家還沒啥感覺。
所以你說它這個動作吧,不知道算無意還是刻意為之,總之是相當微妙了 (手動狗頭)。
參考鏈接:
[1]https://www.zhihu.com/question/1941891000319580108
[2]https://www.zhihu.com/question/1941882763503473149/answer/1942093625908524069
[3]https://docs.nvidia.com/cuda/nvmath-python/0.3.0/tutorials/notebooks/matmul/04_fp8.html
[4]https://www.ainvest.com/news/deepseek-ue8m0-fp8-optimization-rise-china-sufficient-ai-stack-2508/
本文來自微信公眾號:量子位(ID:QbitAI),作者:克雷西、一水,原標題《DeepSeek 一句話讓國產芯片集體暴漲!背后的 UE8M0 FP8 到底是個啥》
本文鏈接:http://m.www897cc.com/showinfo-45-27005-0.htmlDeepSeek 一句話讓國產芯片集體暴漲,背后的 UE8M0 FP8 到底是什么
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com