QUICK REVIEW

[논문 리뷰] Can Post-Training Transform LLMs into Causal Reasoners?

Junqi Chen, Sirui Chen|arXiv (Cornell University)|2026. 02. 06.

Bayesian Modeling and Causal Inference인용 수 0

한 줄 요약

본 논문은 CauGym을 활용한 사후 학습(post-training)이 작은 LLM을 효과적인 인과 추론자로 바꿀 수 있는지 체계적으로 연구하고, 온라인 RL 방법들, 특히 GRPO가 최상의 성능(93.5% CaLM)을 낳아 더 큰 모델들을 능가한다는 것을 밝혀냈다.

ABSTRACT

Causal inference is essential for decision-making but remains challenging for non-experts. While large language models (LLMs) show promise in this domain, their precise causal estimation capabilities are still limited, and the impact of post-training on these abilities is insufficiently explored. This paper examines the extent to which post-training can enhance LLMs' capacity for causal inference. We introduce CauGym, a comprehensive dataset comprising seven core causal tasks for training and five diverse test sets. Using this dataset, we systematically evaluate five post-training approaches: SFT, DPO, KTO, PPO, and GRPO. Across five in-domain and four existing benchmarks, our experiments demonstrate that appropriate post-training enables smaller LLMs to perform causal inference competitively, often surpassing much larger models. Our 14B parameter model achieves 93.5% accuracy on the CaLM benchmark, compared to 55.4% by OpenAI o3. Furthermore, the post-trained LLMs exhibit strong generalization and robustness under real-world conditions such as distribution shifts and noisy data. Collectively, these findings provide the first systematic evidence that targeted post-training can produce reliable and robust LLM-based causal reasoners. Our data and GRPO-model are available at https://github.com/OpenCausaLab/CauGym.

연구 동기 및 목표

비전문가를 위한 쉬운 인과 추론과 반사실 추론의 필요성을 촉구한다.
다섯 가지 사후 학습 접근법이 LLM의 인과 추론 능력에 미치는 영향을 평가한다.
7개의 인과 과자와 5개의 테스트 세트로 구성된 CauGym을 소개하고, 9개 데이터셋에 대한 평가를 포함한다.
도메인 내 및 벤치마크 데이터셋에서 SFT, DPO, KTO, PPO, GRPO를 비교한다.
타깃이 지정된 사후 학습이 견고하고 일반화 가능한 인과 추론자를 만들어내는지 입증한다.

제안 방법

인공 합성 SCM 기반 DAG를 생성하여 일곱 가지 인과 과제(ATE, CDE, ETT, NDE, NIE, PN, PS)를 이용해 CauGym을 구성한다.
두 단계 학습을 적용한다: SFT로 콜드 스타트하고, 이어 다섯 가지 사후 학습 방법(SFT, PPO, GRPO, DPO, KTO)을 수행한다.
아홉 개의 테스트 세트에서 일반화, 내재화, 견고성을 평가한다.
신뢰성을 위해 다섯 독립 실행에서 정확도를 평가 지표로 보고한다.
각 방법당 두 가지 사후 학습 적응을 제공한다(예: 오프라인 RL의 양성/음성 샘플, SFT의 사고의 체인 프롬프트 등).
여러 대형 LLM을 포함한 기준선과 비교한다.

실험 결과

연구 질문

RQ1LLM이 사후 학습을 통해 효과적인 인과 추론자가 될 수 있는가?
RQ2어떤 사후 학습 방법이 인과 추론을 가장 잘 향상시키며 그 정도는 얼마인가?
RQ3사후 학습된 LLM이 재구성된 질문에 일반화하고, 인과 정리를 내재화하며, 노이즈나 불완전한 데이터에서도 견고하게 작동하는가?
RQ4사후 학습 후의 작은 LLM이 인과 벤치마크에서 더 큰 모델과 어떻게 비교되는가?

주요 결과

대형 언어 모델	ATE	CDE	ETT	NDE	NIE	PN	PS	Avg.
Llama-3.3-70B	0.572	0.372	0.288	0.430	0.200	0.010	0.010	0.269
Qwen3-235B	0.004	0.000	0.180	0.230	0.000	0.000	0.000	0.059
DeepSeek-R1-0528-671B	0.740	0.540	0.220	0.460	0.450	0.780	0.800	0.570
Gemini 2.5 Pro	0.760	0.710	0.320	0.590	0.470	0.240	0.050	0.448
OpenAI o3	0.840	0.590	0.300	0.430	0.720	0.450	0.550	0.554
DeepSeek-R1-Distill-Qwen-14B	0.594	0.364	0.210	0.442	0.212	0.014	0.066	0.272
Cold Start Base	0.634	0.550	0.156	0.294	0.434	0.788	0.714	0.510
SFT	0.852	0.828	0.470	0.560	0.604	0.858	0.766	0.702
DPO	0.656	0.514	0.198	0.282	0.510	0.806	0.708	0.524
KTO	0.716	0.674	0.232	0.412	0.472	0.812	0.700	0.574
PPO	0.972	0.982	0.806	0.926	0.924	0.940	0.902	0.921
GRPO	0.990	0.994	0.900	0.940	0.930	0.928	0.866	0.935

GRPO는 CaLM에서 평균 93.5%로 최상위 성능을 달성하며, DeepSeek-R1-0528-671B(57.0%), OpenAI o3(55.4%)를 능가한다.
온라인 RL 방법(PPO 및 GRPO)이 지표 전반에서 오프라인 RL(DPO, KTO)과 SFT를 지속적으로 능가한다.
콜드 스타트와 비교하면, SFT, DPO, KTO, PPO, GRPO의 평균 CaLM 정확도 향상은 각각 19.2%, 1.4%, 6.4%, 41.1%, 42.5%이다.
온라인 RL 방법은 재구성된 입력에 대한 강한 일반화와 분포 변화 및 노이즈 데이터에 대한 견고성을 보여 오프라인 방법을 능가한다.
지시가 제거되면 DeepSeek-R1-0528-671B는 더 불안정해지며, 인과 추론을 위한 온라인 RL의 가치를 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.