[論文レビュー] Process Supervision for Chain-of-Thought Reasoning via Monte Carlo Net Information Gain
MCNIG は過程報酬モデルのステップレベルのラベルを自動生成し、チェイン・オブ・思考の推論を監視することで線形計算量を達成し、数学・コーディング・SQL のタスクにおける best-of-K 回答選択を改善します。
Multi-step reasoning improves the capabilities of large language models (LLMs) but increases the risk of errors propagating through intermediate steps. Process reward models (PRMs) mitigate this by scoring each step individually, enabling fine-grained supervision and improved reliability. Existing methods for training PRMs rely on costly human annotations or computationally intensive automatic labeling. We propose a novel approach to automatically generate step-level labels using Information Theory. Our method estimates how each reasoning step affects the likelihood of the correct answer, providing a signal of step quality. Importantly, it reduces computational complexity to $\mathcal{O}(N)$, improving over the previous $\mathcal{O}(N \log N)$ methods. We demonstrate that these labels enable effective chain-of-thought selection in best-of-$K$ evaluation settings across diverse reasoning benchmarks, including mathematics, Python programming, SQL, and scientific question answering. This work enables scalable and efficient supervision of LLM reasoning, particularly for tasks where error propagation is critical.
研究の動機と目的
- LLM における頑健な多段推論を動機づけ、チェイン・オブ・思考(CoT)における誤り伝搬を防ぐ。
- トレーニング用のプロセス報酬モデル(PRM)の推論ステップを自動的にラベリングするスケーラブルな方法を導入する。
- MCNIG ベースの監視が、異なる領域でのステップレベル評価と best-of-K の回答選択を改善することを示す。
- 従来の自動ラベリング手法に対する効率性の向上を示し、プログラミングとテキストから SQL へのタスクへ PRM を拡張する。
提案手法
- 問題ごとに複数の CoT 追跡を、基本となる LLM と構造化フォーマットおよび最終回答を検証するバリデータを用いて生成する。
- 正しい軸と不正な軸を対比するため、情報利得(IG)とモンテカルロ・ネット情報利得(MCNIG)を用いて各ステップの情報測度を計算する。
- MCNIG を用いてドメイン特有の閾値で二値ステップラベルを割り当て、スコアのスケールを正規化する。
- デリミタベースの入力とステップ区切りでのバイナリ分類ヘッドを用いて、各ステップの正誤を予測するプロセス報酬モデル(PRM)を訓練する。
- 完全な推論チェーンの後の最終結果のみを評価するベースラインとして ORM を訓練する。
- 多様なベンチマークで best-of-K 選択を用いて PRM および ORM を評価し、モデルのスケーラビリティテスト(8B 対 14B)を実施する。
実験結果
リサーチクエスチョン
- RQ1MCNIG は多様なタスクにわたるステップレベル推論品質の信頼できるスケーラブル信号を提供できるか?
- RQ2IG ラベリングおよび ORM ベースラインと比べて、MCNIG ラベリングは PRM ベースの best-of-K 性能を改善するか?
- RQ3MCNIG は数学・コーディング・テキストto SQL ドメイン(外部分布を含む)で PRM の性能にどのような影響を与えるか?
主な発見
- MCNIG ラベリングは、すべてのデータセットで単純な情報利得よりも信頼性の高いステップレベルの監視を提供する。
- MCNIG で訓練されたPRM は、IG 訓練PRM、ORM ベースライン、および多数決よりも best-of-K の選択で優れており、K が増えるほどその差は顕著である。
- MCNIG はラベリングトークンを約1.1e8 に削減し、OmegaPRM の7分の1程度のトークン量でラベリングを可能にする。
- モデルサイズを8Bから14Bへ増やすと、MCNIG 訓練 PRM の平均性能が約1.1ポイント程度向上する。
- MCNIG 訓練PRM は、 tested methods の中で UGPhysics の分布外データで最も高い正確性を達成する(MCNIG 14B: 15.1%)。
- ProcessBench では、報告されたベースラインの中で MCNIG ベース PRM が最先端に近い F1 スコアを達成しており(MCNIG 14B が QwenPRM 7B をわずかに上回る)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。