[論文レビュー] Qwen2.5 Technical Report
Qwen2.5 はデータと訓練をアップグレードしたオープンウェイトおよび MoE LLM の一連を提示し、オープンウェイトでの強力な性能と競争力のあるホステッドソリューションを達成、長文文脈機能を含む広範なポスト訓練改良を含む。
In this report, we introduce Qwen2.5, a comprehensive series of large language models (LLMs) designed to meet diverse needs. Compared to previous iterations, Qwen 2.5 has been significantly improved during both the pre-training and post-training stages. In terms of pre-training, we have scaled the high-quality pre-training datasets from the previous 7 trillion tokens to 18 trillion tokens. This provides a strong foundation for common sense, expert knowledge, and reasoning capabilities. In terms of post-training, we implement intricate supervised finetuning with over 1 million samples, as well as multistage reinforcement learning. Post-training techniques enhance human preference, and notably improve long text generation, structural data analysis, and instruction following. To handle diverse and varied use cases effectively, we present Qwen2.5 LLM series in rich sizes. Open-weight offerings include base and instruction-tuned models, with quantized versions available. In addition, for hosted solutions, the proprietary models currently include two mixture-of-experts (MoE) variants: Qwen2.5-Turbo and Qwen2.5-Plus, both available from Alibaba Cloud Model Studio. Qwen2.5 has demonstrated top-tier performance on a wide range of benchmarks evaluating language understanding, reasoning, mathematics, coding, human preference alignment, etc. Specifically, the open-weight flagship Qwen2.5-72B-Instruct outperforms a number of open and proprietary models and demonstrates competitive performance to the state-of-the-art open-weight model, Llama-3-405B-Instruct, which is around 5 times larger. Qwen2.5-Turbo and Qwen2.5-Plus offer superior cost-effectiveness while performing competitively against GPT-4o-mini and GPT-4o respectively. Additionally, as the foundation, Qwen2.5 models have been instrumental in training specialized models such as Qwen2.5-Math, Qwen2.5-Coder, QwQ, and multimodal models.
研究の動機と目的
- Qwen2.5 がデータとモデルサイズを拡大して推論・コーディング・数学・指示遵守の能力を向上させる方法を示す。
- ポスト訓練戦略(SFT、オフライン/オンライン RL)が人間の嗜好整合性と長文脈処理を高めることを説明する。
- diverse なユースケースと費用対効果の高い展開を可能にするアーキテクチャ、トークナイザ、MoE の強化を提示する。
- 企業・API 利用のための contemporaries とホステッド MoE 版に対するオープンウェイトモデルの性能を示す。
提案手法
- 前訓練データを 7T から 18T トークンへ拡大し、キュレーション済みデータ混合とドメインバランスを実施。
- 拡張 RoPE 基底周波数と最大 32,768 トークン(段階的訓練で Turbo は 262,144 まで)を用いた長文脈前訓練を組み込む。
- 長いシーケンス生成、数学/コーディング、構造化データ、クロスリンガルデータを含む 100 万を超える監督付きファインチューニングサンプルを使用。
- 事実性、指示遵守、安全性を最適化するための二段階強化学習(オフライン DPO 風およびオンライン GRPO)を適用。
- ホステッド版(Qwen2.5-Turbo および Qwen2.5-Plus)向けにMoEアーキテクチャを採用し、オープンウェイト公開は 0.5B〜72B サイズの密結合モデルで実施。
実験結果
リサーチクエスチョン
- RQ1多様な知識領域(意味づけ、コーディング、数学)におけるデータを 18 兆トークンへスケールさせることの利得は何か。
- RQ2長文脈訓練と拡張された文脈長が生成品質と構造化データ処理にどのように影響するか。
- RQ3マルチステージのポスト訓練(SFT、オフライン RL、オンライン RL)が人間の嗜好整合性と長文タスクの性能を領域横断で向上させるか。
- RQ4オープンウェイトの密結合モデルと MoE 版が最新モデル(例:Llama-3、Mixtral)と比較して総合・数学・コーディング・多言語タスクでどう優劣を示すか。
- RQ5Qwen2.5-Turbo/Plus と標準のオープンウェイトモデル間でコストと待ち時間の現実的なトレードオフは何か。
主な発見
- Qwen2.5-72B-Instruct のオープンウェイトモデルは、約 5 倍の規模(Llama-3-405B-Instruct)と競合する最先端のオープンウェイトモデルと競合的な性能を示す。
- Qwen2.5-Turbo と Qwen2.5-Plus は、ベースラインでそれぞれ GPT-4o-mini および GPT-4o と競合しつつコスト効果が高い。
- 前訓練データの規模とドメインバランスの取れた混合が、知識・コーディング・数学の分野知識の向上に寄与。
- 長文脈機能(ベースモデルは最大 8K トークン、Turbo は最大 1M トークン)によって長文生成と構造化データ処理が大幅に強化。
- ポスト訓練は 100 万超の SFT サンプルと二段階 RL(オフライン+オンライン)を用いて指示遵守・推論・安全性の整合性を向上。
- Qwen2.5 系列は 0.5B~72B の多様な構成と MoE 版のホステッド利用を可能にするオープンウェイトエコシステムを提供。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。