Skip to main content
QUICK REVIEW

[論文レビュー] Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning

Jingyao Wang, Peizheng Guo|arXiv (Cornell University)|Feb 6, 2026
Topic Modeling被引用数 0
ひとこと要約

論文は GC2PO を導入し、一般化可能な推論を訓練するために中間ステップの頑健性と表現力を最大化することを目的とする因果的反事実報酬フレームワークを GRPO 内で用い、最終的な正確さだけでなく中間過程の頑健性と表現力を重視して学習する。

ABSTRACT

Large language models (LLMs) excel at complex tasks with advances in reasoning capabilities. However, existing reward mechanisms remain tightly coupled to final correctness and pay little attention to the underlying reasoning process: trajectories with sound reasoning but wrong answers receive low credit, while lucky guesses with flawed logic may be highly rewarded, affecting reasoning generalization. From a causal perspective, we interpret multi-candidate reasoning for a fixed question as a family of counterfactual experiments with theoretical supports. Building on this, we propose Group Causal Counterfactual Policy Optimization to explicitly train LLMs to learn generalizable reasoning patterns. It proposes an episodic causal counterfactual reward that jointly captures (i) robustness, encouraging the answer distribution induced by a reasoning step to remain stable under counterfactual perturbations; and (ii) effectiveness, enforcing sufficient variability so that the learned reasoning strategy can transfer across questions. We then construct token-level advantages from this reward and optimize the policy, encouraging LLMs to favor reasoning patterns that are process-valid and counterfactually robust. Extensive experiments on diverse benchmarks demonstrate its advantages.

研究の動機と目的

  • LLM における一般化可能な推論の必要性を、推論過程の品質と最終的な正しさのデカップリングで動機づける。
  • 推論の頑健性と表現力を評価する、細粒度のエピソード的因果的反事実報酬を提案する。
  • エピソード報酬を利用して一般化可能な推論パターンを学習するトークンレベルの方策最適化手法を開発する。
  • 頑健性/表現力と因果的ポリシー収束との理論的保証を提供する。
  • 多様な推論ベンチマークとモデルスケールで実証的な利得を示す。

提案手法

  • 複数の候補推論を共通の外因ノイズの下で反事実実験として解釈する(定理 2.1)。
  • 解法をエピソードに区分し、推論ステップの一貫性を表すエピソードベースのタグ付けを行う。
  • 二項目から成るエピソード的因果的反事実報酬を定義:安定性(潜在的撹乱に対する頑健性)と表現力(情報を崩さず提示する能力)(定理 3.1; 3.2)。
  • エピソード報酬をトークンへ分配し、各質問グループ内で正規化してトークンレベルの利得を計算する(式 4–7)。
  • 結果報酬と因果的反事実報酬のバランスを取る GRPO に似た目的関数で最適化する(式 8)。
  • 適切な条件の下で因果報酬を最大化することでオラクル因果ポリシーとの KL 発散を下界化する頑健性保証を提供する(定理 3.2)。

実験結果

リサーチクエスチョン

  • RQ1LLM において final correctness から推論過程の品質を切り離すことで推論の一般化をどのように改善できるか?
  • RQ2エピソード的因果的反事実報酬は変動を超えた不変な推論パターンをより良く捉えるか?
  • RQ3頑健性と表現力を推論ステップの最適化により高めると、質問間の転移と一般化は改善されるか?
  • RQ4エピソード的因果報酬が因果的推論戦略への収束へ与える理論的保証は何か?
  • RQ5多様なベンチマークでの実証結果は、アウトカムベースおよび過程ベースの報酬より GC2PO が優れていることを支持するか?

主な発見

MethodsAIME 2024AIME 2025AMC 2023MATH500MinervaMATHGSM8KAverage Results
DeepScaleR-1.5B-Preview42.836.783.085.224.689.660.3
+ GRPO (Shao et al., 2024)44.5 (+1.7)39.3 (+2.6)81.5 (-1.5)84.9 (-0.3)24.7 (+0.1)89.4 (-0.2)60.7 (+0.4)
+ length penalty (Arora and Zanette, 2025)40.3 (-2.5)30.3 (-6.4)77.3 (-5.7)83.2 (-2.0)23.0 (-1.6)88.5 (-1.1)57.1 (-3.2)
+ ReST-MCTS (Zhang et al., 2024)45.5 (+2.7)39.5 (+2.8)83.4 (+0.4)84.8 (-0.4)23.9 (-0.7)89.9 (+0.3)61.2 (+0.9)
+ GVPO (Zhang et al., 2025a)46.1 (+3.3)39.7 (+3.0)83.6 (+0.6)85.7 (+0.5)25.3 (+0.7)90.4 (+0.8)61.8 (+1.5)
+ Dr.GRPO (Liu et al., 2025)45.8 (+3.0)39.6 (+2.9)82.1 (-0.9)85.3 (+0.1)25.1 (+0.5)90.0 (+0.4)61.3 (+1.0)
+ GCPO (Gu et al., 2025)46.7 (+3.9)40.3 (+3.6)84.1 (+1.1)86.3 (+1.1)25.9 (+1.4)90.5 (+0.9)62.3 (+2.0)
+ MRT (Qu et al., 2025)47.2 (+4.4)39.7 (+3.0)83.1 (+0.1)85.1 (-0.1)24.2 (-0.4)89.9 (+0.3)61.5 (+1.2)
+ L2T-GRPO (Wang et al., 2025b)48.5 (+5.7)40.2 (+3.5)85.4 (+2.4)88.1 (+2.9)26.5 (+1.9)90.9 (+1.3)63.3 (+3.0)
+ GC2PO (Ours)49.3 (+6.2)40.6 (+3.9)86.1 (+3.1)88.3 (+3.1)27.5 (+2.9)91.6 (+2.0)63.9 (+3.6)
+ DeepSeek-R1-Distill-Qwen-1.5B33.8?74.385.325.4??
  • GC2PO は GRPO ベースおよび過程報酬ベースのベースラインと比較して複数のベンチマークで優れた pass@1 を達成。
  • 提案されたエピソード的因果的反事実報酬は、最終正解に依存せず、頑健で有益な中間推論ステップを報酬することで一般化を改善。
  • エピソード報酬から派生したトークンレベルの利得により、少ないトークン数で一般化可能な推論パターンを学習可能。
  • GC2PO はモデルサイズ 1.5B から 7B までのスケールと多様なデータセット(AIME、AMC、MATH500、MinervaMATH、GSM8K、HumanEval)で一貫した利得を示す。
  • Table 1 は GC2PO がいくつかのベースラインを平均結果で顕著なマージンで上回ることを示す。
  • アブレーション研究と学習安定性分析は、頑健性/表現力設計の有効性を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。