URL
TL;DR
- 本文主要介绍
Qwen3-Next
架构,由于还没有发正式论文,所以主要参考官方博客和 transformers
实现代码
架构优化
混合架构

Output=SDPA(Q,K,V)⊙σ(XWθ)
- 二者层数占比:
GatedDeltaNet
占比 75%
GatedAttention
占比 25%
极致稀疏 MoE
- 共有
512
个专家,每次只激活 10
个路由专家 + 1
个共享专家
- 激活参数只占原参数的
3.7%
,因此采用 80B-A3
这种又大又快的模型
训练稳定性友好设计
Zero-Centered RMSNorm
- 在
GatedAttention
的 QK Norm
(上图中 QK
做 Attention
之前的)用 Zero-Centered RMSNorm
LayerNorm(x)=N1∑1N(xi−μ)2+ϵx−μ⋅γ+β
RMSNorm(xi)=N1∑1Nxi2+ϵx⋅γ
Zero-Centered RMSNorm(x)=N1∑1N(xi−μ)2+ϵx−μ⋅γ
- 从公式上看
Zero-Centered RMSNorm
本质就是不带 β 的 LayerNorm
MoE router 权重初始化
- 初始化时归一化了
MoE router
的参数,确保每个 expert
在训练早期都能被无偏地选中,减小初始化对实验结果的扰动
Multi-Token Prediction
- 和
DeepSeek-V3
的 MTP
的区别是:本 MTP
不仅在训练时候预测多个,推理的时候也预测多个,非常方便 Speculative Decoding
预训练
Qwen3-Next
采用的是 Qwen3 36T
预训练语料的一个均匀采样子集,仅包含 15T tokens
Thoughts
Qwen3-Next-80B-A3B
比 Qwen3-32B
效果更好,速度更快,这主要归功于超稀疏 MoE
带来的计算量显著下降,以及 GatedDeltaNet
带来的平方复杂度到线性复杂度的下降
- 预训练竟然会对数据做采样使用,这个有点反直觉,后续会关注论文中有没有详细解释