Skip to main content
QUICK REVIEW

[논문 리뷰] Can Large Language Models Infer Causation from Correlation?

Zhijing Jin, Jiarui Liu|arXiv (Cornell University)|2023. 06. 09.
Topic Modeling인용 수 23
한 줄 요약

이 논문은 Corr2Cause를 도입하여 상관관계에서 순수한 인과 추론을 테스트하는 대규모 벤치마크를 제시하고, 기존 LLM은 미세조정 없이 거의 무작위에 가깝게 동작하며, 미세조정 후 혼합 이득이 있긴 하지만 분포 외 일반화가 미약하다는 것을 보여준다.

ABSTRACT

Causal inference is one of the hallmarks of human intelligence. While the field of CausalNLP has attracted much interest in the recent years, existing causal inference datasets in NLP primarily rely on discovering causality from empirical knowledge (e.g., commonsense knowledge). In this work, we propose the first benchmark dataset to test the pure causal inference skills of large language models (LLMs). Specifically, we formulate a novel task Corr2Cause, which takes a set of correlational statements and determines the causal relationship between the variables. We curate a large-scale dataset of more than 200K samples, on which we evaluate seventeen existing LLMs. Through our experiments, we identify a key shortcoming of LLMs in terms of their causal inference skills, and show that these models achieve almost close to random performance on the task. This shortcoming is somewhat mitigated when we try to re-purpose LLMs for this skill via finetuning, but we find that these models still fail to generalize -- they can only perform causal inference in in-distribution settings when variable names and textual expressions used in the queries are similar to those in the training set, but fail in out-of-distribution settings generated by perturbing these queries. Corr2Cause is a challenging task for LLMs, and would be helpful in guiding future research on improving LLMs' pure reasoning skills and generalizability. Our data is at https://huggingface.co/datasets/causalnlp/corr2cause. Our code is at https://github.com/causalNLP/corr2cause.

연구 동기 및 목표

  • 현재 LLM이 경험적 지식 없이 상관에서 인과를 추론할 수 있는지 평가한다.
  • NLP 모델에서 순수한 인과 추론을 평가하기 위한 대규모 데이터셋을 구축한다.
  • Corr2Cause에서의 미세조정 여부에 따른 아키텍처 간 성능 차이를 분석한다.
  • 데이터 분포 외 입력에 대한 견고성과 일반화를 조사한다.

제안 방법

  • Corr2Cause 작업 정의: 상관성 진술과 인과 관계 가설을 f(s,h) -> v 함수로 타당성 레이블에 매핑한다.
  • 구조적 인과 모델(DGCMs, d-separation, MECs) 및 CAusal discovery 원리로부터 >200K 샘플의 데이터셋을 생성한다.
  • Markov 동등 클래스의 모든 그래프에서 가설 관계가 성립하는지 여부를 PC 알고리즘에서 영감을 받은 데이터 생성으로 결정한다.
  • DS 및 가설을 자연어 프롬프트로 verbalize하여 LLM 평가에 활용한다.
  • Corr2Cause에서 17개 LLM(BERT 기반 NLI, RoBERTa, GPT 계열, LLaMA 등)을 제로샷 및 미세조정 설정으로 평가한다.
  • 일반화 여부를 평가하기 위해 의역(paraphrase) 및 변수 재정리와 같은 강건성 검사를 수행한다.
Figure 1: Illustration of the motivation behind our task and dataset.
Figure 1: Illustration of the motivation behind our task and dataset.

실험 결과

연구 질문

  • RQ1일반 LLM이 순수 Corr2Cause 인과 추론 과제에서 얼마나 잘 수행하는가?
  • RQ2미세조정이 LLM의 인과 추론 능력을 향상시키고, 분포 변화에 대해 이득이 견고한가?
  • RQ3패러프레이징(paraphrasing) 및 변수 이름 바꾸기와 같은 교란에 의해 모델이 표면적 단서를 이용하는지 아니면 실제 합리적 추론을 하는지?

주요 결과

모델F1정밀도재현율정확도
BART MNLI33.3831.5935.3878.50
RoBERTa MNLI22.7934.7316.9682.50
DeBERTa MNLI14.5214.7114.3374.31
DistilBERT MNLI20.7024.1218.1378.85
GPT-3 Davinci27.8216.5786.5531.61
GPT-3 Instruct (text-davinci-001)17.9911.8437.4348.04
GPT-3 Instruct (text-davinci-002)21.8713.4658.1936.69
GPT-3 Instruct (text-davinci-003)15.7213.4019.0168.97
GPT-3.521.6917.7927.7869.46
GPT-429.0820.9247.6664.60
GPT-3 Ada (finetuned)79.8570.4792.1192.92
GPT-3 Babbage (finetuned)78.1969.9888.6092.48
GPT-3 Curie (finetuned)81.2375.0088.6093.77
GPT-3 Davinci (finetuned)85.5280.2691.5295.28
GPT2 (finetuned)89.1888.0390.3596.66
GPT2-Large (finetuned)94.2992.1896.4998.22
GPT2-XL (finetuned)94.3091.9496.7898.22
LLaMA-7B (finetuned)91.9888.6295.6197.46
LLaMa2-7B (finetuned)92.9290.1195.9197.77
RoBERTa-Large MNLI (finetuned)94.7492.2497.3798.35
  • 대부분의 일반적인 LLM은 Corr2Cause에서 성능이 저조하며 무작위 baselines에 가깝다.
  • 미세조정되지 않은 모델 중 최고의 F1은 33.38%(BART MNLI)이다.
  • 미세조정은 큰 이득을 주며(예: RoBERTa-Large MNLI가 원본 테스트 세트에서 94.74% F1에 도달), 그러나 강건성 테스트에서 패러프레이즈나 변수 재정리에 따른 성능 하락이 크게 나타난다.
  • 강건성 테스트는 일반화 격차를 크게 보여주며, 패러프레이징으로 F1이 최대 39.29% 감소하고 변수 재정리로 최대 62.3% 감소한다.
  • 미세조정된 모델은 각 관계에 대해 강력한 성능을 보이나(Is-Parent, Is-Descendant, Has-Confounder가 96% F1를 초과), Has-Collider는 여전히 약하다.
  • 데이터셋은 순수한 인과 추론의 일반화 문제를 드러내고, 향후 연구에서 적대적(Test adversarial) 평가의 필요성을 강조한다.
Figure 2: Pipeline of the data construction process.
Figure 2: Pipeline of the data construction process.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.