[论文解读] Qwen3 Technical Report
Qwen3 引入了开放权重的稠密和 MoE 大语言模型,参数规模高达235B,具备思考模式和非思考模式、思考预算以及对119种语言的多语言支持;后训练蒸馏提升了较小模型的性能,同时达到强劲的基准。
In this work, we present Qwen3, the latest version of the Qwen model family. Qwen3 comprises a series of large language models (LLMs) designed to advance performance, efficiency, and multilingual capabilities. The Qwen3 series includes models of both dense and Mixture-of-Expert (MoE) architectures, with parameter scales ranging from 0.6 to 235 billion. A key innovation in Qwen3 is the integration of thinking mode (for complex, multi-step reasoning) and non-thinking mode (for rapid, context-driven responses) into a unified framework. This eliminates the need to switch between different models--such as chat-optimized models (e.g., GPT-4o) and dedicated reasoning models (e.g., QwQ-32B)--and enables dynamic mode switching based on user queries or chat templates. Meanwhile, Qwen3 introduces a thinking budget mechanism, allowing users to allocate computational resources adaptively during inference, thereby balancing latency and performance based on task complexity. Moreover, by leveraging the knowledge from the flagship models, we significantly reduce the computational resources required to build smaller-scale models, while ensuring their highly competitive performance. Empirical evaluations demonstrate that Qwen3 achieves state-of-the-art results across diverse benchmarks, including tasks in code generation, mathematical reasoning, agent tasks, etc., competitive against larger MoE models and proprietary models. Compared to its predecessor Qwen2.5, Qwen3 expands multilingual support from 29 to 119 languages and dialects, enhancing global accessibility through improved cross-lingual understanding and generation capabilities. To facilitate reproducibility and community-driven research and development, all Qwen3 models are publicly accessible under Apache 2.0.
研究动机与目标
- 推进具备稠密与 MoE 架构的开放权重大语言模型(LLMs)。
- 在单一模型中实现统一的思考模式和非思考模式,避免在专用系统之间切换。
- 引入思考预算,在推理深度与推理计算之间取得平衡。
- 将多语言支持扩展到 119 种语言,以提升跨语言理解与生成能力。
提出的方法
- 在 119 种语言、36 万亿标记上预训练稠密和 MoE 的 Qwen3 模型(参数范围 0.6B–235B),采用三阶段预训练(General、Reasoning、Long Context)与长上下文技术。
- 结合分组查询注意力、SwiGLU、RoPE,以及配合 QK-Norm 的 RMSNorm,再加上一个128专家的 MoE 设计,每个标记激活8个专家,并采用全局平衡损失以鼓励专业化。
- 在单一模型中采用两模态思考框架(思考模式和非思考模式),以思考预算控制推理深度,并通过聊天模板系统实现动态模式切换。
- 实现后训练,分四个阶段(两阶段用于思考、两阶段用于非思考),采用强到弱蒸馏,使较小模型能够继承大型教师的能力。
- 开发长-CoT 的冷启动数据,包含 3,995 对查询-验证的数据对的推理强化学习(GRPO),以及用于融合思考模式与非思考模式能力的 Thinking Mode Fusion 阶段。
实验结果
研究问题
- RQ1在通用、数学/ STEM、编码和多语言基准测试中,开放权重的 Qwen3 稠密与 MoE 模型是否能够达到最先进或具有竞争力的表现?
- RQ2在单一模型中整合思考和非思考模式,是否比在不同模型之间切换更易用且更高效?
- RQ3思考预算对推理延迟和跨领域任务性能的影响是什么?
- RQ4后训练蒸馏(强到弱)在生成具有强性能的轻量级模型方面有多有效?
- RQ5将多语言覆盖扩展到 119 种语言如何影响跨语言能力和基准测试结果?
主要发现
- Qwen3-235B-A22B-Base 在基准测试中实现高性能,激活参数数量少于某些基线模型(例如,在多项任务上优于若干更大模型的结果)。
- MoE 基础模型在激活参数显著更少的情况下也能匹配或超过稠密模型,使推理成本更高效,同时保持强劲的性能。
- 后训练后,思考模式和非思考模式在与领先的专有模型及大型 MoE 模型的竞争中仍具备竞争力,特别是在编码、数学和代理任务方面。
- 增加思考预算可在各任务中带来持续的性能提升。
- Qwen3-235B-A22B 在 AIME'24 上取得 85.7,在 AIME'25 上取得 81.5,在 LiveCodeBench v5 上取得 70.7,在 CodeForces 上取得 2,056,在 BFCL v3 上取得 70.8。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。