快科技9月29日消息,今天下午DeepSeek突然發布了DeepSeek v3.2-Exp大模型,這是前幾天發布DeepSeek v3.1終結版之后的又一大動作,很符合重大節日前DeepSeek發新模型的習慣。
DeepSeek v3.2的亮點很多,但是大家不必關注于這個模型能力有多好,從她exp的后綴就可以看出它本質上是DeepSeek探索新技術用的,這方面才有價值。
DeepSeek Sparse Attention(DSA)首次實現了細粒度稀疏注意力機制,在幾乎不影響模型輸出效果的前提下,實現了長文本訓練和推理效率的大幅提升。
DeepSeek v3.2還是小版本進步,大家關心的還是DeepSeek重大版本升級,也就是傳聞了很久的DeepSeek v4及r2,尤其是v4這種基座大模型。

推上一個名為DeepSeek News Commentary的賬號表示v4將于10月發布,帶來100萬上下文、GRPO驅動推理及NSA/SPCT等技術,數學、編程能力大幅提升,同時速度極快,成本也極低。
這個賬號的屬地也是杭州,但目前來看并非DeepSeek官方賬號,消息真實性值得商榷。
不過10月份發布DeepSeek v4也不是完全沒可能,畢竟DeepSeek v3.2是技術驗證方向的,是在為DeepSeek v4重大技術升級探路。
還有一點需要注意,DeepSeek v4早在四五月份就說要發布,但官方一直不為所動,期間還被傳出什么訓練失敗之類的負面消息,只是這些傳聞不足為信,無非是抹黑國產大模型及算力不及美國罷了。
DeepSeek v4發布應該是需要一個重要契機,那就是與國產算力芯片全面適配,這一點DeepSeek官方之前已經明確了,下一代將支持FP8算法,與國產芯片全面適配。

現在已經不少國產AI芯片宣布支持FP8算法了,但是這方面的適配顯然需要一個領頭羊,那就是華為昇騰,聯系一下前幾天的大約上華為高調宣布昇騰路線圖,明年Q1時候的昇騰950PR不僅支持FP4,還支持FP4,算力達到1PFLOPS(FP8)/ 2PFLOPS(FP4),支持FP32/HF32/FP16/BF16/FP8/MXFP8 /HiF8/MXFP4/HiF4等數據格式,互聯帶寬為2TB/s,內存容量和帶寬做到了144GB、4TB/s。
顯然昇騰950PR上市的時候,DeepSeek V4才是佳的登場時刻,此前也早有消息稱DeepSeek已經使用國產AI芯片訓練,v3.2就同時支持CUDA和TileLang,v4自然也不會落下。
后續DeepSeek v4肯定還會有其他國產AI芯片的適配版的,包括寒武紀、海光等。

本文鏈接:http://m.www897cc.com/showinfo-22-186418-0.htmlDeepSeek V4被曝下月發布:100M上下文 全面用國產AI芯片訓練
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com