Skip to main content
QUICK REVIEW

[논문 리뷰] Can Post-Training Transform LLMs into Causal Reasoners?

Junqi Chen, Sirui Chen|arXiv (Cornell University)|2026. 02. 06.
Bayesian Modeling and Causal Inference인용 수 0
한 줄 요약

본 논문은 CauGym을 활용한 사후 학습(post-training)이 작은 LLM을 효과적인 인과 추론자로 바꿀 수 있는지 체계적으로 연구하고, 온라인 RL 방법들, 특히 GRPO가 최상의 성능(93.5% CaLM)을 낳아 더 큰 모델들을 능가한다는 것을 밝혀냈다.

ABSTRACT

Causal inference is essential for decision-making but remains challenging for non-experts. While large language models (LLMs) show promise in this domain, their precise causal estimation capabilities are still limited, and the impact of post-training on these abilities is insufficiently explored. This paper examines the extent to which post-training can enhance LLMs' capacity for causal inference. We introduce CauGym, a comprehensive dataset comprising seven core causal tasks for training and five diverse test sets. Using this dataset, we systematically evaluate five post-training approaches: SFT, DPO, KTO, PPO, and GRPO. Across five in-domain and four existing benchmarks, our experiments demonstrate that appropriate post-training enables smaller LLMs to perform causal inference competitively, often surpassing much larger models. Our 14B parameter model achieves 93.5% accuracy on the CaLM benchmark, compared to 55.4% by OpenAI o3. Furthermore, the post-trained LLMs exhibit strong generalization and robustness under real-world conditions such as distribution shifts and noisy data. Collectively, these findings provide the first systematic evidence that targeted post-training can produce reliable and robust LLM-based causal reasoners. Our data and GRPO-model are available at https://github.com/OpenCausaLab/CauGym.

연구 동기 및 목표

  • 비전문가를 위한 쉬운 인과 추론과 반사실 추론의 필요성을 촉구한다.
  • 다섯 가지 사후 학습 접근법이 LLM의 인과 추론 능력에 미치는 영향을 평가한다.
  • 7개의 인과 과자와 5개의 테스트 세트로 구성된 CauGym을 소개하고, 9개 데이터셋에 대한 평가를 포함한다.
  • 도메인 내 및 벤치마크 데이터셋에서 SFT, DPO, KTO, PPO, GRPO를 비교한다.
  • 타깃이 지정된 사후 학습이 견고하고 일반화 가능한 인과 추론자를 만들어내는지 입증한다.

제안 방법

  • 인공 합성 SCM 기반 DAG를 생성하여 일곱 가지 인과 과제(ATE, CDE, ETT, NDE, NIE, PN, PS)를 이용해 CauGym을 구성한다.
  • 두 단계 학습을 적용한다: SFT로 콜드 스타트하고, 이어 다섯 가지 사후 학습 방법(SFT, PPO, GRPO, DPO, KTO)을 수행한다.
  • 아홉 개의 테스트 세트에서 일반화, 내재화, 견고성을 평가한다.
  • 신뢰성을 위해 다섯 독립 실행에서 정확도를 평가 지표로 보고한다.
  • 각 방법당 두 가지 사후 학습 적응을 제공한다(예: 오프라인 RL의 양성/음성 샘플, SFT의 사고의 체인 프롬프트 등).
  • 여러 대형 LLM을 포함한 기준선과 비교한다.

실험 결과

연구 질문

  • RQ1LLM이 사후 학습을 통해 효과적인 인과 추론자가 될 수 있는가?
  • RQ2어떤 사후 학습 방법이 인과 추론을 가장 잘 향상시키며 그 정도는 얼마인가?
  • RQ3사후 학습된 LLM이 재구성된 질문에 일반화하고, 인과 정리를 내재화하며, 노이즈나 불완전한 데이터에서도 견고하게 작동하는가?
  • RQ4사후 학습 후의 작은 LLM이 인과 벤치마크에서 더 큰 모델과 어떻게 비교되는가?

주요 결과

대형 언어 모델ATECDEETTNDENIEPNPSAvg.
Llama-3.3-70B0.5720.3720.2880.4300.2000.0100.0100.269
Qwen3-235B0.0040.0000.1800.2300.0000.0000.0000.059
DeepSeek-R1-0528-671B0.7400.5400.2200.4600.4500.7800.8000.570
Gemini 2.5 Pro0.7600.7100.3200.5900.4700.2400.0500.448
OpenAI o30.8400.5900.3000.4300.7200.4500.5500.554
DeepSeek-R1-Distill-Qwen-14B0.5940.3640.2100.4420.2120.0140.0660.272
Cold Start Base0.6340.5500.1560.2940.4340.7880.7140.510
SFT0.8520.8280.4700.5600.6040.8580.7660.702
DPO0.6560.5140.1980.2820.5100.8060.7080.524
KTO0.7160.6740.2320.4120.4720.8120.7000.574
PPO0.9720.9820.8060.9260.9240.9400.9020.921
GRPO0.9900.9940.9000.9400.9300.9280.8660.935
  • GRPO는 CaLM에서 평균 93.5%로 최상위 성능을 달성하며, DeepSeek-R1-0528-671B(57.0%), OpenAI o3(55.4%)를 능가한다.
  • 온라인 RL 방법(PPO 및 GRPO)이 지표 전반에서 오프라인 RL(DPO, KTO)과 SFT를 지속적으로 능가한다.
  • 콜드 스타트와 비교하면, SFT, DPO, KTO, PPO, GRPO의 평균 CaLM 정확도 향상은 각각 19.2%, 1.4%, 6.4%, 41.1%, 42.5%이다.
  • 온라인 RL 방법은 재구성된 입력에 대한 강한 일반화와 분포 변화 및 노이즈 데이터에 대한 견고성을 보여 오프라인 방법을 능가한다.
  • 지시가 제거되면 DeepSeek-R1-0528-671B는 더 불안정해지며, 인과 추론을 위한 온라인 RL의 가치를 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.