Skip to main content
QUICK REVIEW

[論文レビュー] Qwen3 Technical Report

An Yang, Anfeng Li|ArXiv.org|May 14, 2025
Topic Modeling被引用数 44
ひとこと要約

Qwen3は、思考モードと非思考モードを備えたopen-weight denseおよびMoE LLMを235Bパラメータまで導入し、思考予算と119言語の多言語サポートを提供します。post-training distillationは小型モデルを強化しつつ、強力なベンチマークを達成します。

ABSTRACT

In this work, we present Qwen3, the latest version of the Qwen model family. Qwen3 comprises a series of large language models (LLMs) designed to advance performance, efficiency, and multilingual capabilities. The Qwen3 series includes models of both dense and Mixture-of-Expert (MoE) architectures, with parameter scales ranging from 0.6 to 235 billion. A key innovation in Qwen3 is the integration of thinking mode (for complex, multi-step reasoning) and non-thinking mode (for rapid, context-driven responses) into a unified framework. This eliminates the need to switch between different models--such as chat-optimized models (e.g., GPT-4o) and dedicated reasoning models (e.g., QwQ-32B)--and enables dynamic mode switching based on user queries or chat templates. Meanwhile, Qwen3 introduces a thinking budget mechanism, allowing users to allocate computational resources adaptively during inference, thereby balancing latency and performance based on task complexity. Moreover, by leveraging the knowledge from the flagship models, we significantly reduce the computational resources required to build smaller-scale models, while ensuring their highly competitive performance. Empirical evaluations demonstrate that Qwen3 achieves state-of-the-art results across diverse benchmarks, including tasks in code generation, mathematical reasoning, agent tasks, etc., competitive against larger MoE models and proprietary models. Compared to its predecessor Qwen2.5, Qwen3 expands multilingual support from 29 to 119 languages and dialects, enhancing global accessibility through improved cross-lingual understanding and generation capabilities. To facilitate reproducibility and community-driven research and development, all Qwen3 models are publicly accessible under Apache 2.0.

研究の動機と目的

  • denseとMoEアーキテクチャの両方を備えたopen-weight LLMの高度化。
  • 専門的なシステム間の切り替えを避けるため、単一のモデル内で統一された思考モードと非思考モードを実現する。
  • 推論時の推論深度と計算量のバランスを取る思考予算を導入する。
  • クロスリンガルな理解と生成を向上させるため、119言語への多言語サポートを拡大する。

提案手法

  • denseとMoEのQwen3モデル(0.6B–235Bパラメータ)を、119言語にわたる36兆トークンで事前学習し、General/Reasoning/Long Contextの三段階の事前学習と長期コンテキスト技法を用いる。
  • Grouped Query Attention、SwiGLU、RoPE、およびQK-Normを用いたRMSNormを組み込み、8つの活性化専門家をトークンあたり8つ activation する128-expert MoE設計と専門化を促すグローバルバランス損失を組み合わせる。
  • 単一のモデル内で二-modeの思考フレームワーク(思考と非思考)を採用し、思考予算が推論 depthを制御し、ダイナミックモード切替のためのチャットテンプレートシステムを備える。
  • 思考と非思考の4段階のポストトレーニングを実施(思考用2段、非思考用2段)し、強→弱の蒸留により小型モデルが大規模教師の能力を継承できるようにする。
  • Long-CoTのコールドスタートデータ、推論RL(GRPO)を3,995クエリ検証ペアで開発し、思考モードと非思考モードの能力を結合するThinking Mode Fusionステージを導入する。

実験結果

リサーチクエスチョン

  • RQ1open-weightのQwen3 denseおよびMoEモデルは、一般、数学/ STEM、コーディング、そして多言語ベンチマークで最先端または競合的な性能を達成できるか。
  • RQ2単一モデル内で思考モードと非思考モードを統合することで、別個のモデル間の切替えより使いやすさと効率性が改善されるか。
  • RQ3思考予算が推論遅延や多様なドメインのタスク性能に与える影響はどの程度か。
  • RQ4ポストトレーニング蒸留(強→弱)が軽量モデルで高性能を発揮するうえでどの程度効果的か。
  • RQ5119言語への多言語カバレッジ拡大がクロスリンガル能力とベンチマーク結果にどう影響するか。

主な発見

  • Qwen3-235B-A22B-Baseは、複数のタスクでより多くのパラメータを活性化しているモデルよりも少ない活性化パラメータでも高い性能を示す。
  • MoEベースはdenseモデルと同等またはそれを上回る性能を、はるかに少ない活性化パラメータで実現でき、推論のコスト効率を高めつつ高い性能を維持できる。
  • ポストトレーニング後も、思考モードと非思考モードの両方が主要な独自モデルや大規模MoEモデルに対して競争力を維持しており、特にコーディング、数学、エージェント系タスクで優位。
  • 思考予算を増やすと、タスク全般で一貫した性能向上が得られる。
  • Qwen3-235B-A22BはAIME'24で85.7、AIME'25で81.5、LiveCodeBench v5で70.7、CodeForcesで2,056、BFCL v3で70.8を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。