QUICK REVIEW

[논문 리뷰] Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning

Jingyao Wang, Peizheng Guo|arXiv (Cornell University)|2026. 02. 06.

Topic Modeling인용 수 0

한 줄 요약

이 논문은 GC2PO를 GRPO 내의 인과적 반사실 보상 프레임워크로 도입하여 일반화 가능한 추론을 위해 intermediate steps의 견고성과 표현력을 극대화함으로써 최종 정답이 아니라 중간 단계의 강건성과 표현력을 중시합니다.

ABSTRACT

Large language models (LLMs) excel at complex tasks with advances in reasoning capabilities. However, existing reward mechanisms remain tightly coupled to final correctness and pay little attention to the underlying reasoning process: trajectories with sound reasoning but wrong answers receive low credit, while lucky guesses with flawed logic may be highly rewarded, affecting reasoning generalization. From a causal perspective, we interpret multi-candidate reasoning for a fixed question as a family of counterfactual experiments with theoretical supports. Building on this, we propose Group Causal Counterfactual Policy Optimization to explicitly train LLMs to learn generalizable reasoning patterns. It proposes an episodic causal counterfactual reward that jointly captures (i) robustness, encouraging the answer distribution induced by a reasoning step to remain stable under counterfactual perturbations; and (ii) effectiveness, enforcing sufficient variability so that the learned reasoning strategy can transfer across questions. We then construct token-level advantages from this reward and optimize the policy, encouraging LLMs to favor reasoning patterns that are process-valid and counterfactually robust. Extensive experiments on diverse benchmarks demonstrate its advantages.

연구 동기 및 목표

LLM에서 일반화 가능한 추론의 필요성을 최종 정답에서 추론 과정의 품질을 분리하여 동기화합니다.
추론의 견고성과 표현력을 평가하는 세밀한 에피소드 기반의 인과적 반사실 보상을 제안합니다.
에피소드 보상으로 일반화 가능한 추론 패턴을 학습하기 위한 토큰 수준 정책 최적화 방법을 개발합니다.
강건성과 표현력과 수렴 toward causal policies 사이의 이론적 보장을 제시합니다.
다양한 추론 벤치마크와 모델 규모에 걸쳐 실증적 이득을 시연합니다.

제안 방법

공유된 외생적 노이즈 아래에서 다중 후보 추론을 반사실 실험으로 해석합니다(정리 2.1).
해결책을 응집된 추론 단계를 나타내는 에피소드로 분할합니다(프롬프트 기반 에피소드 태깅).
에피소드형 인과 반사실 보상을 두 항으로 정의합니다: 안정성(잠재적 변동에 대한 강건성)과 표현력(비수렴적 정보 표현) (정리 3.1; 3.2).
에피소드 보상을 토큰에 분배하고 각 문제 그룹 내에서 정규화하여 토큰 수준의 이점을 계산합니다(식 4–7).
Outcome 보상과 인과적 반사실 보상을 균형 있게 조합하는 GRPO 유사 목적 함수로 최적화합니다(식 8).
적절한 조건에서 인과 보상을 최대화하면 오라클 인과 정책과의 KL 발산을 상한으로 제시하는 강건성 보장을 제공합니다(정리 3.2).

실험 결과

연구 질문

RQ1LLM에서 최종 정답과 추론 과정의 질을 분리하여 추론 일반화를 어떻게 향상시킬 수 있는가?
RQ2에피소드 기반의 인과적 반사실 보상이 다양한 변 variation에서 불변의 추론 패턴을 더 잘 포착하는가?
RQ3추론 단계의 강건성과 표현력을 최적화하는 것이 질문 간 이전 및 일반화를 개선하는가?
RQ4에피소드 인과 보상이 인과적 추론 전략으로의 수렴과 어떤 이론적 보장을 제공하는가?
RQ5다양한 벤치마크에서의 실험 결과가 GC2PO가 결과 기반 및 과정 기반 보상보다 우수하다는 것을 지지하는가?

주요 결과

Methods	AIME 2024	AIME 2025	AMC 2023	MATH500	MinervaMATH	GSM8K	Average Results
DeepScaleR-1.5B-Preview	42.8	36.7	83.0	85.2	24.6	89.6	60.3
+ GRPO (Shao et al., 2024)	44.5 (+1.7)	39.3 (+2.6)	81.5 (-1.5)	84.9 (-0.3)	24.7 (+0.1)	89.4 (-0.2)	60.7 (+0.4)
+ length penalty (Arora and Zanette, 2025)	40.3 (-2.5)	30.3 (-6.4)	77.3 (-5.7)	83.2 (-2.0)	23.0 (-1.6)	88.5 (-1.1)	57.1 (-3.2)
+ ReST-MCTS (Zhang et al., 2024)	45.5 (+2.7)	39.5 (+2.8)	83.4 (+0.4)	84.8 (-0.4)	23.9 (-0.7)	89.9 (+0.3)	61.2 (+0.9)
+ GVPO (Zhang et al., 2025a)	46.1 (+3.3)	39.7 (+3.0)	83.6 (+0.6)	85.7 (+0.5)	25.3 (+0.7)	90.4 (+0.8)	61.8 (+1.5)
+ Dr.GRPO (Liu et al., 2025)	45.8 (+3.0)	39.6 (+2.9)	82.1 (-0.9)	85.3 (+0.1)	25.1 (+0.5)	90.0 (+0.4)	61.3 (+1.0)
+ GCPO (Gu et al., 2025)	46.7 (+3.9)	40.3 (+3.6)	84.1 (+1.1)	86.3 (+1.1)	25.9 (+1.4)	90.5 (+0.9)	62.3 (+2.0)
+ MRT (Qu et al., 2025)	47.2 (+4.4)	39.7 (+3.0)	83.1 (+0.1)	85.1 (-0.1)	24.2 (-0.4)	89.9 (+0.3)	61.5 (+1.2)
+ L2T-GRPO (Wang et al., 2025b)	48.5 (+5.7)	40.2 (+3.5)	85.4 (+2.4)	88.1 (+2.9)	26.5 (+1.9)	90.9 (+1.3)	63.3 (+3.0)
+ GC2PO (Ours)	49.3 (+6.2)	40.6 (+3.9)	86.1 (+3.1)	88.3 (+3.1)	27.5 (+2.9)	91.6 (+2.0)	63.9 (+3.6)
+ DeepSeek-R1-Distill-Qwen-1.5B	33.8	?	74.3	85.3	25.4	?	?

GC2PO는 GRPO 기반 및 과정 보상 기준선에 비해 여러 벤치마크에서 더 우수한 pass@1 성능을 달성합니다.
제안된 에피소드 기반의 인과적 반사실 보상은 최종 정답과 무관하게 견고하고 정보성 있는 중간 추론 단계에 보상을 주어 일반화를 향상시킵니다.
에피소드 보상에서 파생된 토큰 수준 이점은 더 적은 토큰으로 일반화 가능한 추론 패턴 학습을 가능하게 합니다.
GC2PO는 모델 규모(1.5B에서 7B)와 다양한 데이터 세트에서 일관된 이점을 보여줍니다.
표 1은 GC2PO가 여러 기준선보다 평균 결과에서 상당한 차이로 우수함을 보여줍니다.
절삭 연구 및 학습 안정성 분석은 강건성/표현력 설계의 효과를 뒷받침합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.