Skip to main content
QUICK REVIEW

[論文レビュー] Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

Qiyuan Zhang, Yufei Wang|arXiv (Cornell University)|Mar 2, 2026
Recommender Systems and Techniques被引用数 0
ひとこと要約

Mix-GRM は Breadth-CoT と Depth-CoT の二重フレームワークをモジュラー合成パイプラインと RLVR 微調整で実現し、5つの報酬ベンチマークで最先端の結果を達成するとともに、推論スタイルのタスク依存的ベネフィットを明らかにする。

ABSTRACT

Recent advancements in Generative Reward Models (GRMs) have demonstrated that scaling the length of Chain-of-Thought (CoT) reasoning considerably enhances the reliability of evaluation. However, current works predominantly rely on unstructured length scaling, ignoring the divergent efficacy of different reasoning mechanisms: Breadth-CoT (B-CoT, i.e., multi-dimensional principle coverage) and Depth-CoT (D-CoT, i.e., substantive judgment soundness). To address this, we introduce Mix-GRM, a framework that reconfigures raw rationales into structured B-CoT and D-CoT through a modular synthesis pipeline, subsequently employing Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR) to internalize and optimize these mechanisms. Comprehensive experiments demonstrate that Mix-GRM establishes a new state-of-the-art across five benchmarks, surpassing leading open-source RMs by an average of 8.2\%. Our results reveal a clear divergence in reasoning: B-CoT benefits subjective preference tasks, whereas D-CoT excels in objective correctness tasks. Consequently, misaligning the reasoning mechanism with the task directly degrades performance. Furthermore, we demonstrate that RLVR acts as a switching amplifier, inducing an emergent polarization where the model spontaneously allocates its reasoning style to match task demands. The synthesized data and models are released at \href{https://huggingface.co/collections/DonJoey/mix-grm}{Hugging Face}, and the code is released at \href{https://github.com/Don-Joey/Mix-GRM}{Github}.

研究の動機と目的

  • Generative Reward Models におけるチェーン・オブ・思考の均一な長さスケーリングを超え、推論スタイルの機構認識的位置づけへ移行する動機づけ。
  • 非構造化の推論根拠を Breadth-CoT (B-CoT) および Depth-CoT (D-CoT) に変換するモジュラー合成パイプラインの開発。
  • B-CoT および D-CoT データの混合に対する SFT を RLVR と結合し、推論機構を内在化・最適化する。
  • 一般報酬指標および Offline RL やテスト時スケーリングなどの下流タスクでの機構適応的な整合性を実証する。
  • B-CoT と D-CoT が主観的好み vs. 客観的正確さに対してどのように異なる影響を及ぼすかを分析する。

提案手法

  • 原始的な推論根拠を Principle–Judgment–Verdict ユニットに標準化する。
  • 多様な原理の並列集約による Breadth-CoT と、順次的な推論 grounded judgment による Depth-CoT の二つの CoT メカニズムを合成する。
  • B-CoT および D-CoT データの混合に対して教師あり微調整を行い、次に真実の verdicts を用いた RLVR で応答を整合させ最適化する。
  • GRPO ベースの目的関数を用いて人間ラベルとの verdict 一致性を報酬する。
  • RLVR が能力の偏りを引き起こし、好みには B-CoT を、正確さには D-CoT を切り替えるよう自動的に推論スタイルを整合させるスイッチング効果を分析する。
  • 標準的な5つの報酬ベンチマークおよびダウンストリーム応用(Offline RL(DPO)およびテスト時スケーリング(Best-of-N)など)で評価する。

実験結果

リサーチクエスチョン

  • RQ1Breadth-CoT と Depth-CoT の混合が Generative Reward Models における単一構造の CoT を凌駕するか?
  • RQ2B-CoT と D-CoT は主観的好み vs. 客観的正確さに対して補完的な利点を提供するか?
  • RQ3RLVR はタスク要求に応じて推論スタイルを自動的に整合させるスイッチングアンプとして機能するか?
  • RQ4機構認識的 SFT は長さスケーリングの brute-force に比べてデータ効率が高いか?
  • RQ5混合 CoT メカニズムは Offline RL やテスト時の再ランキングのような下流応用を改善できるか?

主な発見

RewardBench v1RewardBench v2RM-BenchRMBPPEAvg.
84.564.777.079.261.173.3
83.759.165.977.959.569.3
80.350.270.670.158.665.9
84.955.771.278.759.270.0
83.058.068.573.861.468.9
86.258.870.179.260.771.0
85.257.875.675.461.271.0
86.264.472.778.161.772.6
  • Mix-GRM は5つの報酬ベンチマークで新たな最先端性能を達成し、強力なオープンソースベースラインを平均的に上回る。
  • B-CoT は主観的好みタスクに有利だが客観的正確さを劣らせる可能性があり、D-CoT は正確さを向上させる一方で好みには悪影響を及ぼしうることが示され、推論構造のタスク依存性が確認された。
  • RLVR はスイッチング・アンプとして機能し、好みには B-CoT、正確さには D-CoT を割り当てるという新たな偏向を生み出し、全体的利益を向上させる。
  • 混合 SFT を用いた Mix-GRM はデータ集約的なベースラインよりはるかに少ないデータで強力な結果を達成し、機構認識的学習のデータ効率を示す。
  • 下流タスクでは Mix-GRM は Offline RL シグナル(DPO)およびテスト時スケーリングのリランキングを改善し、指示遵守と数学ベンチマークで顕著な gains を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。