[論文レビュー] PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary
PRLはエントロピー正則化強化学習を中間のプロセス報酬へ分解し、推論時の密な監督を提供することで平均推論性能を向上させ、複数の数学推論ベンチマークにおける推論境界を拡大します。
Improving the reasoning abilities of Large Language Models (LLMs) has been a continuous topic recently. But most relevant works are based on outcome rewards at the trajectory level, missing fine-grained supervision during the reasoning process. Other existing training frameworks that try to combine process signals together to optimize LLMs also rely heavily on tedious additional steps like MCTS, training a separate reward model, etc., doing harm to the training efficiency. Moreover, the intuition behind the process signals design lacks rigorous theoretical support, leaving the understanding of the optimization mechanism opaque. In this paper, we propose Process Reward Learning (PRL), which decomposes the entropy regularized reinforcement learning objective into intermediate steps, with rigorous process rewards that could be assigned to models accordingly. Starting from theoretical motivation, we derive the formulation of PRL that is essentially equivalent to the objective of reward maximization plus a KL-divergence penalty term between the policy model and a reference model. However, PRL could turn the outcome reward into process supervision signals, which helps better guide the exploration during RL optimization. From our experiment results, we demonstrate that PRL not only improves the average performance for LLMs' reasoning ability measured by average @ n, but also broadens the reasoning boundary by improving the pass @ n metric. Extensive experiments show the effectiveness of PRL could be verified and generalized.
研究の動機と目的
- マルチステップ推論においてエンド・オブ・トラジェクトリ報酬を超えたより細かい監督の必要性を動機づける。
- コストの高いツール(MCTSや別個の報酬モデル)に依らず、アウトカム報酬をプロセス報酬へ変換する理論的に基づくフレームワークを導入する。
- プロセス指向のRLが平均推論性能と正しい推論の到達範囲(pass@N)をモデルファミリ全体で改善することを示す。
- 標準的なポリシー勾配トレーニングにプロセス監督を組み込む、効率的でKL正則化されたRLアプローチを提供する。
提案手法
- エントロピー正則化されたRL目的を、グローバルなアウトカムと整合する中間ステップのプロセス報酬へ分解してPRLを導出する。
- 最適なプロセス報酬 r* を、アウトカム報酬とポリシーと参照モデルとの対数比ペナルティ(pi* は pi0 に eta r* を掛けた比)として分解できるように定義する。
- 学習可能な報酬モデル r_u と学習可能なポリシー pi_w を導入し、プロセス適応的利得を用いたポリシー勾配スタイルの目的で学習する。
- プロセス報酬を活用しつつ参照とポリシーを近づけるKLペナルティと、安定性のためのクリップド・重要度サンプリングを含む実践的な目的関数 L(ω) を提案する。
- MCTSや別個の報酬モデルを用いない標準的なRL設定でPRLを実装し、エントロピー正則化された目的と任意のGRPO風の利得推定を使用する。
- データサンプリング、トラジェクトリ生成、プロセス・アウトカム報酬計算、ポリシー更新を詳述するアルゴリズム1(Algorithm 1)の手順を提供する。
![Figure 1: PRL workflow demonstration. For each prompt and response trajectory $(x,a)$ with $a=[a^{1},a^{2},\cdots,a^{L}]$ , we could split the reasoning response into several intermediate steps (by fixed length, newline symbol, etc.) and calculate the process reward as the entropy ratio between the](https://ar5iv.labs.arxiv.org/html/2601.10201/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1プロセス報酬学習は多様な数学推論ベンチマークと基盤モデルにおいて平均推論性能(average@8)を改善するか。
- RQ2PRLは推論境界を広げ、評価対象のプロンプトのより困難な問題への一般化を示すか(pass@Nの改善)。
- RQ3プロセス報酬を厳密に定義し、費用の高い探索や補助的報酬モデルなしで探索を導くのに用いることができるか。
- RQ4PRLはモンテカルロ木探索や別個の報酬モデルの訓練を回避し、標準的なポリシー勾配パイプラインで十分実装可能なほど効率的か。
主な発見
| MATH500 | Minerva Math | Olympiad Bench | AMC23 | AIME24 | Avg |
|---|---|---|---|---|---|
| 81.60 | 35.66 | 48.15 | 65.00 | 20.00 | 56.82 |
| 87.40 | 42.65 | 52.00 | 77.50 | 33.33 | 62.23 |
| 88.00 | 44.85 | 56.44 | 70.00 | 20.00 | 64.40 |
| 89.40 | 45.59 | 58.07 | 85.00 | 30.00 | 66.31 |
| 82.00 | 31.03 | 51.56 | 72.50 | 40.00 | 58.24 |
| 91.80 | 51.84 | 62.22 | 82.50 | 46.67 | 70.34 |
| 92.60 | 52.21 | 65.33 | 85.00 | 46.67 | 72.12 |
| 93.60 | 52.57 | 65.19 | 85.00 | 43.33 | 72.38 |
| 45.20 | 8.46 | 12.89 | 20.00 | 6.67 | 22.81 |
| 57.80 | 17.65 | 22.81 | 30.00 | 13.33 | 33.42 |
| 60.60 | 17.65 | 20.15 | 30.00 | 6.67 | 33.03 |
| 67.80 | 28.31 | 28.30 | 45.00 | 23.33 | 41.66 |
| 76.80 | 36.03 | 39.56 | 55.00 | 16.67 | 51.16 |
| 74.00 | 36.40 | 41.33 | 67.50 | 16.67 | 51.42 |
- PRLは複数のベースモデルと数学ベンチマークに対して、ベースライン(RAFT、GRPO など)より一貫して良い性能を示す。
- PRLはaverage@8スコアを改善し、全体的な推論精度が強化されていることを示す。
- PRLは推論境界を広げ、評価されたモデル全体でpass@8の指標が改善されることを示す。
- テーブル由来の結果では、いくつかの基盤モデル(例:Qwen2.5-Math-1.5B, Qwen-2.5-Math-7B, Llama-3.2-1B-Instruct, Llama-3.2-3B-Instruct)において、リストされた構成の中で最も高いAvgスコアを達成する(下記の詳細な数値あり)。
- アウトカムのみの報酬と比較して、平均性能と境界指標の顕著な向上を示し、プロセス監督の有効性を検証する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。