QUICK REVIEW

[論文レビュー] Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

Yang An, Beichen Zhang|arXiv (Cornell University)|Sep 18, 2024

Intelligent Tutoring Systems and Adaptive Learning被引用数 11

ひとこと要約

本論文は self-improvement ループ（事前学習、報酬モデルを用いたポスト学習、推論ガイド）で訓練された数学特化型LLMの一連、Qwen2.5-Mathを紹介し、英語と中国語での最先端の数学推論を達成する。CoTとツール統合推論を含む。

ABSTRACT

In this report, we present a series of math-specific large language models: Qwen2.5-Math and Qwen2.5-Math-Instruct-1.5B/7B/72B. The core innovation of the Qwen2.5 series lies in integrating the philosophy of self-improvement throughout the entire pipeline, from pre-training and post-training to inference: (1) During the pre-training phase, Qwen2-Math-Instruct is utilized to generate large-scale, high-quality mathematical data. (2) In the post-training phase, we develop a reward model (RM) by conducting massive sampling from Qwen2-Math-Instruct. This RM is then applied to the iterative evolution of data in supervised fine-tuning (SFT). With a stronger SFT model, it's possible to iteratively train and update the RM, which in turn guides the next round of SFT data iteration. On the final SFT model, we employ the ultimate RM for reinforcement learning, resulting in the Qwen2.5-Math-Instruct. (3) Furthermore, during the inference stage, the RM is used to guide sampling, optimizing the model's performance. Qwen2.5-Math-Instruct supports both Chinese and English, and possess advanced mathematical reasoning capabilities, including Chain-of-Thought (CoT) and Tool-Integrated Reasoning (TIR). We evaluate our models on 10 mathematics datasets in both English and Chinese, such as GSM8K, MATH, GaoKao, AMC23, and AIME24, covering a range of difficulties from grade school level to math competition problems.

研究の動機と目的

自己学習の技術（事前学習、事後学習、推論時のガイダンス）を跨ぐ自動改善ループがLLMの数学的推論能力を大幅に向上させることを示す。
数学特化のベースモデルおよび指示型モデルを構築する（Qwen2-Math-1.5B/7B/72B）と数学専用の報酬モデル（RM）を作成する。
CoTとツール統合推論（TIR）機能と英語/中国語の多様な数学ベンチマークでの性能を示す。
GSM8K、MATH、 GaoKao、AMC、AIME および関連データセットでの性能向上を確立するために、オープンソースおよびクローズドソースのベースラインと比較評価する。

提案手法

データリコール、フィルタリング、重複排除、合成データ生成を通じて Qwen Math Corpus v1（約700Bトークン）を作成する。
Corpus v1上でQwen2-Mathベースモデルを訓練（1.5B/7B/72B）。
サンプリングデータからQwen2-Math-RMを反復的に訓練し、SFTをガイドする。RMを用いてさらなるデータとRL（GRPO）を最終モデルへ導入する。
Qwen Math Corpus v2（>1Tトークン）へ拡張し、Qwen2.5-MathシリーズのベースをQwen2.5系から初期化する。
事後学習ではCoTとTIRデータを生成し、排除サンプリングを用いたSFTとGRPOを用いたRLで訓練する。報酬設計のためのルールベースの検 verifierを組み込む。
推論時にはRMガイド付きサンプリングとGRPOベースの方略最適化を適用する。TIRの計算にはPythonインタプリタを有効にする。

実験結果

リサーチクエスチョン

RQ1自己改善ループ（データ合成、報酬モデリング、強化学習）がLLMの数学的推論をどのように改善するか？
RQ2英語/中国語の二言語データ、CoT、およびツール統合推論が数学ベンチマークに与える影響は？
RQ3Qwen2.5-Mathモデルは複数データセット・タスクにおいて主要なオープンソースおよびクローズドソースの数学モデルと比較してどうか？
RQ4RMとTIRを用いた事前学習・事後学習・推論時の異なるモデルサイズ（1.5B/7B/72B）の影響は？
RQ5推論中のPythonベースのツール使用は数値計算の精度と問題解決能力を大幅に高めるか？

主な発見

モデル	En	Zh	GSM8K	MATH	MMLU STEM	CMATH	GaoKao Math Cloze	GaoKao Math QA
Llama-3.1-8B	56.7	20.3	NA	NA	NA	NA	NA	NA
Llama-3.1-70B	85.5	41.4	NA	NA	NA	NA	NA	NA
Llama-3.1-405B	89.0	53.8	NA	NA	NA	NA	NA	NA
Qwen2-1.5B	58.5	21.7	4.0?	NA	NA	12.7	35.6	NA
Qwen2-7B	79.9	44.2	NA	NA	NA	37.3	51.6	NA
Qwen2-72B	89.1	60.5	NA	NA	NA	72.9	69.5	NA
Qwen2.5-Math-1.5B	76.8	49.8	NA	NA	NA	83.0	47.5	54.1
Qwen2.5-Math-7B	91.6	55.4	NA	NA	NA	85.0	57.6	69.5
Qwen2.5-Math-72B	90.8	66.8	NA	66.8	NA	89.7	72.9	86.3
Qwen2.5-Math-1.5B-Instruct	84.8	75.8	NA	65.5	NA	67.8	54.8	60.8
Qwen2.5-Math-7B-Instruct	95.2	83.6	NA	66.8	NA	71.4	66.8	58.5
Qwen2.5-Math-72B-Instruct	95.9	85.9	NA	71.9	NA	71.9	49.0	49.5

Qwen2.5-Math-72B-InstructはOpenAI系モデルを含むオープンソース数学モデルの中でMATH、CMATH、Gaokao Math Cloze、Gaokao Math QAで最先端を達成。
Qwen2.5-Math-72B-InstructはQwen2-Math-72B-Instructを意味のある差で上回り（平均的な利益が報告されている）、小型の1.5B/7BバリアントもPythonインタプリタサポートとともに強力な性能を示す。
CoTモードではQwen2.5-Math-1.5B-Instructが多くのオープンソースモデルを凌駕し、7Bバリアントは複数の指標で72B instructモデルにほぼ匹敵。
TIRモードでは72BモデルがMATHでほぼ90に迫り、1.5Bモデルは約80に達しており、規模を超えたツールベース推論の強い需要を示す。
Qwen2.5-Mathモデルはベンチマーク全体で中国語の数学問題解決能力が顕著に向上。
エンドツーエンドの自動改善パイプライン（事前学習データ合成、RM駆動の事後学習、RMガイドの推論）を通じ、前任モデルに対して顕著な性能向上をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。