QUICK REVIEW

[論文レビュー] Understanding R1-Zero-Like Training: A Critical Perspective

Zichen Liu, Changyu Chen|ArXiv.org|Mar 26, 2025

Surgical Simulation and Training被引用数 4

ひとこと要約

この論文は、R1-Zero風の訓練におけるベースモデルとRLを批判的に分析し、GRPOの偏りを明らかにし、Dr. GRPOを導入し、7BモデルでAIME 2024において最先端を達成するミニマリストなレシピを実証します。

ABSTRACT

DeepSeek-R1-Zero has shown that reinforcement learning (RL) at scale can directly enhance the reasoning capabilities of LLMs without supervised fine-tuning. In this work, we critically examine R1-Zero-like training by analyzing its two core components: base models and RL. We investigate a wide range of base models, including DeepSeek-V3-Base, to understand how pretraining characteristics influence RL performance. Our analysis reveals that DeepSeek-V3-Base already exhibit ''Aha moment'', while Qwen2.5 base models demonstrate strong reasoning capabilities even without prompt templates, suggesting potential pretraining biases. Additionally, we identify an optimization bias in Group Relative Policy Optimization (GRPO), which artificially increases response length (especially for incorrect outputs) during training. To address this, we introduce Dr. GRPO, an unbiased optimization method that improves token efficiency while maintaining reasoning performance. Leveraging these insights, we present a minimalist R1-Zero recipe that achieves 43.3% accuracy on AIME 2024 with a 7B base model, establishing a new state-of-the-art. Our code is available at https://github.com/sail-sg/understand-r1-zero.

研究の動機と目的

ベースモデルの事前学習特性がR1-Zero風の訓練におけるRL性能に与える影響を評価する。
GRPOの最適化バイアスを特定し、モデル長と難易度重み付けに影響を与えるかを検討する。
推論を犠牲にせずトークン効率を改善するための公正で unbiased な最適化（Dr. GRPO）を提案する。
テンプレート、質問セットのカバレッジ、RLダイナミクスの相互作用を探る。
数学ベンチマークで強力な成果を挙げるミニマリストなRLレシピを実証する。

提案手法

ベースモデル（Qwen2.5、Llama-3.1、DeepSeek派生）を500 MATHの問いに対してモデル全体で分析し、解答能力・探索・自己反省を評価する。
GRPO最適化バイアスが出力長の増加と質問難易度の重み付けを招くことを分析する。
長さと標準偏差正規化項を除去して unbiased PPO目的を回復するDr. GRPOを提案する。
Dr. GRPOを用いたOatフレームワークでMATHベースのデータセットおよび標準的な数学ベンチマークにおける実証的RL実験。
RLダイナミクスに対するテンプレート対ノーテンプレートの影響と質問セットカバレッジの検討。
数学タスクでのRL上限を改善するドメイン特化の事前学習実験。

実験結果

リサーチクエスチョン

RQ1R1-Zero風の訓練においてベースモデルの事前学習特性はRL結果をバイアスするのか？
RQ2GRPOは出力長や難易度のバイアスを導入し、出力長を膨らませたり質問の重みづけを不適切にするのか？
RQ3Dr. GRPOは推論性能を損なうことなく公正でトークン効率の高いRL最適化を提供できるのか？
RQ4テンプレートと質問セットカバレッジはRLダイナミクスと最終性能をどのように形作るのか？
RQ5ドメイン特化の事前学習はR1-Zero風訓練における数学的推論のRL上限を高めるのか？

主な発見

Model	Template	AIME24	AMC	MATH500	Minerva	OlympiadBench	Avg
Qwen2.5-Math-1.5B	4-shot prompting	0.0	20.0	50.4	12.1	15.9	19.7
Qwen2.5-Math-1.5B	R1 template	0.0	9.6	21.2	6.6	2.2	7.9
Qwen2.5-Math-1.5B	Qwen template	20.0	32.5	33.0	12.5	22.8	24.2
Qwen2.5-Math-1.5B	No template	16.7	43.4	61.8	15.1	28.4	33.1
Qwen2.5-Math-7B	4-shot prompting	-	-	-	-	-	-
Qwen2.5-Math-7B	Qwen template	16.7	38.6	50.6	9.9	16.6	26.5
Qwen2.5-Math-7B	No template	0.2	45.8	69.0	21.3	34.7	38.2

Qwen2.5ベースモデルはテンプレートなしで高い回答率を達成でき、QAテキストの連結事前学習を示唆している。
RL前の全てのベースモデルは数学的解法能力を示し、多くはRL前に“Aha”モーメントを示す。
Dr. GRPOは長さと標準偏差正規化のバイアスを除去し、推論性能を保ちながらトークン効率を改善する。
GRPOの長さ・難易度バイアスは最適化を歪め、誤回答の出力を長くし、質問の重みづけを不均等にする可能性がある。
ミニマリストなRLレシピ（Dr. GRPOとQwen2.5-Math-7B、Mathレベルのプロンプト）は modest computeで強力な成果を達成し、AIME 2024で最先端に。
ドメイン特化の数学事前学習（FineMath/NuminaQA）は数学的推論のRL上限を引き上げうる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。