[논문 리뷰] Can Post-Training Transform LLMs into Causal Reasoners?
본 논문은 CauGym을 활용한 사후 학습(post-training)이 작은 LLM을 효과적인 인과 추론자로 바꿀 수 있는지 체계적으로 연구하고, 온라인 RL 방법들, 특히 GRPO가 최상의 성능(93.5% CaLM)을 낳아 더 큰 모델들을 능가한다는 것을 밝혀냈다.
Causal inference is essential for decision-making but remains challenging for non-experts. While large language models (LLMs) show promise in this domain, their precise causal estimation capabilities are still limited, and the impact of post-training on these abilities is insufficiently explored. This paper examines the extent to which post-training can enhance LLMs' capacity for causal inference. We introduce CauGym, a comprehensive dataset comprising seven core causal tasks for training and five diverse test sets. Using this dataset, we systematically evaluate five post-training approaches: SFT, DPO, KTO, PPO, and GRPO. Across five in-domain and four existing benchmarks, our experiments demonstrate that appropriate post-training enables smaller LLMs to perform causal inference competitively, often surpassing much larger models. Our 14B parameter model achieves 93.5% accuracy on the CaLM benchmark, compared to 55.4% by OpenAI o3. Furthermore, the post-trained LLMs exhibit strong generalization and robustness under real-world conditions such as distribution shifts and noisy data. Collectively, these findings provide the first systematic evidence that targeted post-training can produce reliable and robust LLM-based causal reasoners. Our data and GRPO-model are available at https://github.com/OpenCausaLab/CauGym.
연구 동기 및 목표
- 비전문가를 위한 쉬운 인과 추론과 반사실 추론의 필요성을 촉구한다.
- 다섯 가지 사후 학습 접근법이 LLM의 인과 추론 능력에 미치는 영향을 평가한다.
- 7개의 인과 과자와 5개의 테스트 세트로 구성된 CauGym을 소개하고, 9개 데이터셋에 대한 평가를 포함한다.
- 도메인 내 및 벤치마크 데이터셋에서 SFT, DPO, KTO, PPO, GRPO를 비교한다.
- 타깃이 지정된 사후 학습이 견고하고 일반화 가능한 인과 추론자를 만들어내는지 입증한다.
제안 방법
- 인공 합성 SCM 기반 DAG를 생성하여 일곱 가지 인과 과제(ATE, CDE, ETT, NDE, NIE, PN, PS)를 이용해 CauGym을 구성한다.
- 두 단계 학습을 적용한다: SFT로 콜드 스타트하고, 이어 다섯 가지 사후 학습 방법(SFT, PPO, GRPO, DPO, KTO)을 수행한다.
- 아홉 개의 테스트 세트에서 일반화, 내재화, 견고성을 평가한다.
- 신뢰성을 위해 다섯 독립 실행에서 정확도를 평가 지표로 보고한다.
- 각 방법당 두 가지 사후 학습 적응을 제공한다(예: 오프라인 RL의 양성/음성 샘플, SFT의 사고의 체인 프롬프트 등).
- 여러 대형 LLM을 포함한 기준선과 비교한다.
실험 결과
연구 질문
- RQ1LLM이 사후 학습을 통해 효과적인 인과 추론자가 될 수 있는가?
- RQ2어떤 사후 학습 방법이 인과 추론을 가장 잘 향상시키며 그 정도는 얼마인가?
- RQ3사후 학습된 LLM이 재구성된 질문에 일반화하고, 인과 정리를 내재화하며, 노이즈나 불완전한 데이터에서도 견고하게 작동하는가?
- RQ4사후 학습 후의 작은 LLM이 인과 벤치마크에서 더 큰 모델과 어떻게 비교되는가?
주요 결과
| 대형 언어 모델 | ATE | CDE | ETT | NDE | NIE | PN | PS | Avg. |
|---|---|---|---|---|---|---|---|---|
| Llama-3.3-70B | 0.572 | 0.372 | 0.288 | 0.430 | 0.200 | 0.010 | 0.010 | 0.269 |
| Qwen3-235B | 0.004 | 0.000 | 0.180 | 0.230 | 0.000 | 0.000 | 0.000 | 0.059 |
| DeepSeek-R1-0528-671B | 0.740 | 0.540 | 0.220 | 0.460 | 0.450 | 0.780 | 0.800 | 0.570 |
| Gemini 2.5 Pro | 0.760 | 0.710 | 0.320 | 0.590 | 0.470 | 0.240 | 0.050 | 0.448 |
| OpenAI o3 | 0.840 | 0.590 | 0.300 | 0.430 | 0.720 | 0.450 | 0.550 | 0.554 |
| DeepSeek-R1-Distill-Qwen-14B | 0.594 | 0.364 | 0.210 | 0.442 | 0.212 | 0.014 | 0.066 | 0.272 |
| Cold Start Base | 0.634 | 0.550 | 0.156 | 0.294 | 0.434 | 0.788 | 0.714 | 0.510 |
| SFT | 0.852 | 0.828 | 0.470 | 0.560 | 0.604 | 0.858 | 0.766 | 0.702 |
| DPO | 0.656 | 0.514 | 0.198 | 0.282 | 0.510 | 0.806 | 0.708 | 0.524 |
| KTO | 0.716 | 0.674 | 0.232 | 0.412 | 0.472 | 0.812 | 0.700 | 0.574 |
| PPO | 0.972 | 0.982 | 0.806 | 0.926 | 0.924 | 0.940 | 0.902 | 0.921 |
| GRPO | 0.990 | 0.994 | 0.900 | 0.940 | 0.930 | 0.928 | 0.866 | 0.935 |
- GRPO는 CaLM에서 평균 93.5%로 최상위 성능을 달성하며, DeepSeek-R1-0528-671B(57.0%), OpenAI o3(55.4%)를 능가한다.
- 온라인 RL 방법(PPO 및 GRPO)이 지표 전반에서 오프라인 RL(DPO, KTO)과 SFT를 지속적으로 능가한다.
- 콜드 스타트와 비교하면, SFT, DPO, KTO, PPO, GRPO의 평균 CaLM 정확도 향상은 각각 19.2%, 1.4%, 6.4%, 41.1%, 42.5%이다.
- 온라인 RL 방법은 재구성된 입력에 대한 강한 일반화와 분포 변화 및 노이즈 데이터에 대한 견고성을 보여 오프라인 방법을 능가한다.
- 지시가 제거되면 DeepSeek-R1-0528-671B는 더 불안정해지며, 인과 추론을 위한 온라인 RL의 가치를 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.