Zhangzhe's Blog

The projection of my life.

0%

Qwen3 技术报告先导篇

URL

TL;DR

  • Qwen3 系列模型四月二十九日正式发布,但到目前为止,还没发布技术报告,只有一篇官方博客,介绍了 Qwen3 的一些基本信息
  • 本文围绕着官方博客介绍,结合实际使用情况,给出一些个人的理解

Qwen3 系列模型

  • 本次 Qwen3 主要发布了八个版本的模型,其中包含两个 MOE 模型和六个 dense 模型:
    • Qwen3-235B-A22BMOE 模型,235B 参数量,22B 激活参数量
    • Qwen3-30B-A3BMOE 模型,30B 参数量,3B 激活参数量
    • Qwen3-32Bdense 模型,32B 参数量
    • Qwen3-14Bdense 模型,14B 参数量
    • Qwen3-8Bdense 模型,8B 参数量
    • Qwen3-4Bdense 模型,4B 参数量
    • Qwen3-1.7Bdense 模型,1.7B 参数量
    • Qwen3-0.6Bdense 模型,0.6B 参数量
  • 还有对应的 Base 模型(只经过预训练)和 fp8 Quantized 模型(量化模型)
  • Qwen3 相较于上一代 Qwen2.5,一个较大的技术进步是:统一了 Reasoning 和非 Reasoning 模式,即不再区分推理模型和非推理模型(或者叫思考模型和非思考模型),而是一个模型可以通过 prompt 来选择推理模式和非推理模式

Qwen3 模型的主要特性

预训练

  • 相较于上一代 Qwen2.5 使用了 18 万亿个 token 做预训练,Qwen3 使用了 36 万亿个 token 做预训练(整整翻了一倍,这是多大的数据团队才能搞出来的,太壕了
  • 包含了 119 种语言和方言,有大量数据是合成数据和在 PDF 上识别的文本数据
  • 预训练分成了三个阶段:
    • 第一阶段:模型在超过 30 万亿个 token 上进行了预训练,上下文长度为 4K token
    • 第二阶段:通过增加知识密集型数据(如 STEM、编程和推理任务)的比例来改进数据集,在 5 万亿个 token 上进行了预训练
    • 第三阶段:使用高质量的长上下文数据将上下文长度扩展到 32K token
  • 预训练实际效果:官方的说法是 Qwen3-1.7B/4B/8B/14B/32B-Base 分别与 Qwen2.5-3B/7B/14B/32B/72B-Base 表现相当

后训练

post-training.png

  • 简单概括:用 SFT → RL → SFT+RL 混合 → RL 四个阶段后训练 Qwen3-235B-A22BQwen3-32B 模型,然后蒸馏得到其他小尺寸模型(大 MOE 蒸小 MOE,大 dense 蒸小 dense
  • 四个阶段分别是:
    • 长思维链冷启动 :使用监督微调(SFT)训练模型生成初步的长思维链推理能力,作为初始阶段的基础。
    • 长思维链强化学习 :通过强化学习(RL)进一步提升模型在复杂推理任务中的表现,优化生成思维链的质量和连贯性。
    • 思维模式融合 :结合 SFTRL 的混合策略,将不同思维模式(如逻辑推理、知识检索等)整合到统一框架中,增强模型的灵活性。
    • 通用强化学习 :以 RL 为主导,对模型进行全局优化,强化其在多样化任务中的通用性和鲁棒性。

Qwen3 使用

  • 使用上和 Qwen2.5 没有太大区别,主要是增加了 Reasoning 模式的选择开关
  • 这个开关也非常简便,大概有两种方式可以选择:
    1. 在最新版 Transformer 库中 tokenizer.apply_chat_template 中可以设置 enable_thinking=True # Switch between thinking and non-thinking modes. Default is True.
    2. 另外一种方式就是始终保持上面的开关常开,然后在 prompt 中添加 /no_think 来关闭推理模式。/no_think 可加到 system contentuser content 结尾。
  • 在一些下游任务上做了 SFT 微调测试,发现 Qwen3-1.7B 经过 SFT 之后和 Qwen2.5-3B-Instruct 经过 SFT 之后的效果差不多,这一点和官方对预训练的说法一致

Thoughts

  • 在当今这个大模型结构同质化时代,预训练数据越多,模型的能力越强(同样效果下数据翻一倍模型尺寸可缩减一半!!),所以小厂没有这么多数据工程师,搞不到大量的高质量的数据,是很难在大模型上追赶大厂
  • 到今天为止,Llama 系列官方模型都不能做到原生支持中文,和 Qwen 系列模型原生支持 119 种语言和方言相比,感觉非常小家子气,注定会被扫进历史的垃圾堆里
  • DeepSeekQwen 的影响很大,比如:
    • DeepSeek v3 之后,Qwen 系列模型预训练和最终版的命名从:Qwen2.5-7B/Qwen2.5-7B-Instruct 变成了 Qwen3-8B-Base/Qwen3-8B
    • 广泛的使用了模型蒸馏,确实极大的提高了小尺寸模型的能力(之前 Qwen2.5-0.5B-Instruct 基本就是个答非所问的傻子,现如今的 Qwen3-0.6B 在不开推理模式的情况下也可以解决很多数学问题,非常强)
    • 四段式后训练也和 DeepSeek 使用的后训练非常相似
  • 合并推理和非推理模型的做法,是今后大模型的趋势,有不少模型都在朝着这个方向发展
  • 官方表示 Qwen 系列后续会向着 Agent 方向发展,铺垫了很久的 MCP 可能会产生新的 Agent 应用变革