[論文レビュー] Not All Steps are Informative: On the Linearity of LLMs' RLVR Training
本論文は RLVR 調整中の重み更新とトークン対数確率の両方における強い線形性を示し、標準的な RLVR よりも低い計算量で同等以上を達成する外挿ベースの加速法を提案します。重みの外挿、ロジットの外挿、そして RL-Extra を導入して学習を高速化します。
Reinforcement learning with verifiable rewards (RLVR) has become a central component of large language model (LLM) post-training. Unlike supervised fine-tuning (SFT), RLVR lets an LLM generate multiple candidate solutions and reinforces those that lead to a verifiably correct final answer. However, in practice, RLVR often requires thousands of training steps to reach strong performance, incurring substantial computation largely attributed to prolonged exploration. In this work, we make a surprising observation: during RLVR, LLMs evolve in a strongly linear manner. Specifically, both model weights and model output log-probabilities exhibit strong linear correlations with RL training steps. This suggests that RLVR predominantly amplifies trends that emerge early in training, rather than continuously discovering new behaviors throughout the entire optimization trajectory. Motivated by this linearity, we investigate whether future model states can be predicted from intermediate checkpoints via extrapolation, avoiding continued expensive training. We show that Weight Extrapolation produces models with performance comparable to standard RL training while requiring significantly less computation. Moreover, Logits Extrapolation consistently outperforms continued RL training on mathematics and code benchmarks by extrapolating beyond the step range where RL training remains stable. Our code is available at https://github.com/Miaow-Lab/RLVR-Linearity
研究の動機と目的
- RLVR 学習中に多様なモデルとアルゴリズムに跨る重み更新の線形傾向を識別・定量化。
- RLステップにおけるモデル出力の対数確率とロジットの線形性を分析。
- 観測された重みと出力の線形性の起源を理論的に説明。
- 性能を犠牲にせず RLVR を加速する外挿ベースの高速化手法を開発。
- 壁時計時間を削減しつつ性能を維持する間欠的な学習スキーム(RL-Extra)を提案。
提案手法
- RLVR チェックポイント間でサンプリングした重みの線形回帰を実施し R^2 を測定し、モデルとアルゴリズム間での重み線形性を評価。
- チェックポイント間でトークンの対数確率とロジットを分析し出力の線形性を評価。
- 線形の重み変化がトランスフォーマ層の出力線形性につながるメカニズムを理論的に説明。
- 未来の状態を2つの過去チェックポイントから予測する Logit Extrapolation および Weight Extrapolation の式を導出(式 1, 式 2)。
- RL-Extra を、勾配更新と外挿をバランスさせるための m RL ステップと n 外挿ステップのサイクルとして導入(式 3)。
- AIME-24/25、MATH-500、LiveCodeBench ベンチマークを用いた DeepScaleR-Preview で評価。
実験結果
リサーチクエスチョン
- RQ1RLVR 学習ステップは、多様なベースモデルと RL アルゴリズムにおいてモデル重みに強い線形傾向を生み出すか?
- RQ2トークンの対数確率やロジットを含むモデル出力は、RLVR 学習ステップに沿って線形に進化するか?
- RQ3重みやロジットの外挿は、継続的な RLVR 学習と比較して性能を維持または改善できるか?
- RQ4RL-Extra による RL ステップのインタリーブが、計算量を減らしつつ同等の性能を得られるか?
主な発見
- RLVR に直面する重みのほとんどは R^2 > 0.7 を示し、分布は 0.9 周辺に集中しており、重みの強い線形性を示唆。
- トークンの対数確率も学習ステップと強い線形相関を示し、R^2 は約 0.9。
- ロジットの外挿は、外挿ホライズン内で標準 RL よりも数学・コードベンチマークで一貫して性能を向上させ、後期の不安定さを回避。
- 重みの外挿は一定のホライズンに近づくほど効果を得られるが超えはしない傾向があり、中程度の外挿ステップ付近で最も大きな gains。
- RL-Extra は標準 RL の性能と同等を維持しつつ、設定全体で最大 6.1× の wall-clock 速度向上を達成。
- 直接的な外挿法は、選択ベンチマークでベースラインより最大 3% の性能向上を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。