9 月 12 日消息,阿里云通義團(tuán)隊(duì)今日宣布推出其下一代基礎(chǔ)模型架構(gòu) Qwen3-Next,并開源了基于該架構(gòu)的 Qwen3-Next-80B-A3B 系列模型(Instruct 與 Thinking)。

通義團(tuán)隊(duì)表示,Context Length Scaling 和 Total Parameter Scaling 是未來大模型發(fā)展的兩大趨勢(shì),為了進(jìn)一步提升模型在長上下文和大規(guī)??倕?shù)下的訓(xùn)練和推理效率,他們?cè)O(shè)計(jì)了全新的 Qwen3-Next 的模型結(jié)構(gòu)。

該結(jié)構(gòu)相比 Qwen3 的 MoE 模型結(jié)構(gòu),進(jìn)行了以下核心改進(jìn):混合注意力機(jī)制、高稀疏度 MoE 結(jié)構(gòu)、一系列訓(xùn)練穩(wěn)定友好的優(yōu)化,以及提升推理效率的多 token 預(yù)測(cè)機(jī)制。
基于 Qwen3-Next 的模型結(jié)構(gòu),通義團(tuán)隊(duì)訓(xùn)練了 Qwen3-Next-80B-A3B-Base 模型,該模型擁有 800 億參數(shù)(僅激活 30 億參數(shù))、3B 激活的超稀疏 MoE 架構(gòu)(512 專家,路由 10 個(gè) + 1 共享),結(jié)合 Hybrid Attention(Gated DeltaNet + Gated Attention)與多 Token 預(yù)測(cè)(MTP)。
從官方獲悉,該 Base 模型實(shí)現(xiàn)了與 Qwen3-32B dense 模型相近甚至略好的性能,而它的訓(xùn)練成本僅為 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐則是 Qwen3-32B 的十倍以上,實(shí)現(xiàn)了極致的訓(xùn)練和推理性價(jià)比。

該模型原生支持 262K 上下文,官方稱可外推至約 101 萬 tokens。據(jù)介紹,Instruct 版在若干評(píng)測(cè)中接近 Qwen3-235B,Thinking 版在部分推理任務(wù)上超過 Gemini-2.5-Flash-Thinking。

據(jù)介紹,其突破點(diǎn)在于同時(shí)實(shí)現(xiàn)了大規(guī)模參數(shù)容量、低激活開銷、長上下文處理與并行推理加速,在同類架構(gòu)中具有一定代表性。

模型權(quán)重已在 Hugging Face 以 Apache-2.0 許可發(fā)布,并可通過 Transformers、SGLang、vLLM 等框架部署;第三方平臺(tái) OpenRouter 亦已上線。
本文鏈接:http://m.www897cc.com/showinfo-45-27512-0.html阿里云發(fā)布通義?Qwen3-Next 基礎(chǔ)模型架構(gòu)并開源 80B-A3B 系列:改進(jìn)混合注意力機(jī)制、高稀疏度 MoE 結(jié)構(gòu)
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 騰訊辟謠“前 OpenAI 姚順雨上億薪資入職騰訊”
下一篇: 微軟調(diào)整 Copilot 定價(jià)策略:銷售、服務(wù)、財(cái)務(wù)專屬功能不再額外收費(fèi)