Zhangzhe's Blog

The projection of my life.

0%

Qwen3-Next:迈向更极致的训练推理性价比

URL

TL;DR

  • 本文主要介绍 Qwen3-Next 架构,由于还没有发正式论文,所以主要参考官方博客和 transformers 实现代码

架构优化

混合架构

qwen3-next.png

  • 与之前使用标准 Scaled Dot-Product Attention(SDPA) 层不同,本次 Qwen3-Next 采用 GatedDeltaNet + GatedAttention 混合的方式构建模型
  • GatedDeltaNet 是一种线性复杂度的注意力机制,在 Mamba2 上改进得到的,详细参考:Gated Delta Networks: Improving Mamba2 with Delta Rule
  • GatedAttention 出自 https://arxiv.org/pdf/2505.06708 ,本质就是在标准 SDPA 之后加入了 Gate 操作:

Output=SDPA(Q,K,V)σ(XWθ)\text{Output}=\text{SDPA}(Q,K,V) \odot \sigma(XW_\theta)

  • 二者层数占比:
    • GatedDeltaNet 占比 75%
    • GatedAttention 占比 25%

极致稀疏 MoE

  • 共有 512 个专家,每次只激活 10 个路由专家 + 1 个共享专家
  • 激活参数只占原参数的 3.7%,因此采用 80B-A3 这种又大又快的模型

训练稳定性友好设计

Zero-Centered RMSNorm

  • GatedAttentionQK Norm (上图中 QKAttention 之前的)用 Zero-Centered RMSNorm

LayerNorm(x)=xμ1N1N(xiμ)2+ϵγ+β\text{LayerNorm}(x) = \frac{x-\mu}{\sqrt{\frac{1}{N}\sum_1^N(x_i-\mu)^2+\epsilon}} \cdot \gamma+\beta

RMSNorm(xi)=x1N1Nxi2+ϵγ\text{RMSNorm}(x_i) = \frac{x}{\sqrt{\frac{1}{N}\sum_1^Nx_i^2+\epsilon}} \cdot \gamma

Zero-Centered RMSNorm(x)=xμ1N1N(xiμ)2+ϵγ\text{Zero-Centered RMSNorm}(x) = \frac{x-\mu}{\sqrt{\frac{1}{N}\sum_1^N(x_i-\mu)^2+\epsilon}} \cdot \gamma

  • 从公式上看 Zero-Centered RMSNorm 本质就是不带 β\betaLayerNorm

MoE router 权重初始化

  • 初始化时归一化了 MoE router 的参数,确保每个 expert 在训练早期都能被无偏地选中,减小初始化对实验结果的扰动

Multi-Token Prediction

  • DeepSeek-V3MTP 的区别是:本 MTP 不仅在训练时候预测多个,推理的时候也预测多个,非常方便 Speculative Decoding

预训练

  • Qwen3-Next 采用的是 Qwen3 36T 预训练语料的一个均匀采样子集,仅包含 15T tokens

Thoughts

  • Qwen3-Next-80B-A3BQwen3-32B 效果更好,速度更快,这主要归功于超稀疏 MoE 带来的计算量显著下降,以及 GatedDeltaNet 带来的平方复杂度到线性复杂度的下降
  • 预训练竟然会对数据做采样使用,这个有点反直觉,后续会关注论文中有没有详细解释