0%

Qwen3-Next：迈向更极致的训练推理性价比

Posted on 2025-09-19 Edited on 2025-10-23 In LLM Valine:

URL

blog: https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list

TL;DR

本文主要介绍 Qwen3-Next 架构，由于还没有发正式论文，所以主要参考官方博客和 transformers 实现代码

架构优化

混合架构

与之前使用标准 Scaled Dot-Product Attention(SDPA) 层不同，本次 Qwen3-Next 采用 GatedDeltaNet + GatedAttention 混合的方式构建模型
GatedDeltaNet 是一种线性复杂度的注意力机制，在 Mamba2 上改进得到的，详细参考：Gated Delta Networks: Improving Mamba2 with Delta Rule
GatedAttention 出自 https://arxiv.org/pdf/2505.06708 ，本质就是在标准 SDPA 之后加入了 Gate 操作：

\text{Output}=\text{SDPA}(Q,K,V) \odot \sigma(XW_\theta)

二者层数占比：
- GatedDeltaNet 占比 75%
- GatedAttention 占比 25%

极致稀疏 MoE

共有 512 个专家，每次只激活 10 个路由专家 + 1 个共享专家
激活参数只占原参数的 3.7%，因此采用 80B-A3 这种又大又快的模型

训练稳定性友好设计

Zero-Centered RMSNorm

在 GatedAttention 的 QK Norm （上图中 QK 做 Attention 之前的）用 Zero-Centered RMSNorm

\text{LayerNorm}(x) = \frac{x-\mu}{\sqrt{\frac{1}{N}\sum_1^N(x_i-\mu)^2+\epsilon}} \cdot \gamma+\beta

\text{RMSNorm}(x_i) = \frac{x}{\sqrt{\frac{1}{N}\sum_1^Nx_i^2+\epsilon}} \cdot \gamma

\text{Zero-Centered RMSNorm}(x) = \frac{x-\mu}{\sqrt{\frac{1}{N}\sum_1^N(x_i-\mu)^2+\epsilon}} \cdot \gamma

从公式上看 Zero-Centered RMSNorm 本质就是不带 $\beta$ 的 LayerNorm

MoE router 权重初始化

初始化时归一化了 MoE router 的参数，确保每个 expert 在训练早期都能被无偏地选中，减小初始化对实验结果的扰动

Multi-Token Prediction

和 DeepSeek-V3 的 MTP 的区别是：本 MTP 不仅在训练时候预测多个，推理的时候也预测多个，非常方便 Speculative Decoding

预训练

Qwen3-Next 采用的是 Qwen3 36T 预训练语料的一个均匀采样子集，仅包含 15T tokens

Thoughts

Qwen3-Next-80B-A3B 比 Qwen3-32B 效果更好，速度更快，这主要归功于超稀疏 MoE 带来的计算量显著下降，以及 GatedDeltaNet 带来的平方复杂度到线性复杂度的下降
预训练竟然会对数据做采样使用，这个有点反直觉，后续会关注论文中有没有详细解释