[論文レビュー] Can Large Language Models Infer Causation from Correlation?
論文はCorr2Causeを紹介し、相関から因果関係を純粋に推定する大規模ベンチマークを提案する。既存のLLMsはファインチューニングなしではほぼランダムに近く、ファインチューニング後の効果は混在しているが、アウトオブ分布(OOD) generalizationは貧弱である。
Causal inference is one of the hallmarks of human intelligence. While the field of CausalNLP has attracted much interest in the recent years, existing causal inference datasets in NLP primarily rely on discovering causality from empirical knowledge (e.g., commonsense knowledge). In this work, we propose the first benchmark dataset to test the pure causal inference skills of large language models (LLMs). Specifically, we formulate a novel task Corr2Cause, which takes a set of correlational statements and determines the causal relationship between the variables. We curate a large-scale dataset of more than 200K samples, on which we evaluate seventeen existing LLMs. Through our experiments, we identify a key shortcoming of LLMs in terms of their causal inference skills, and show that these models achieve almost close to random performance on the task. This shortcoming is somewhat mitigated when we try to re-purpose LLMs for this skill via finetuning, but we find that these models still fail to generalize -- they can only perform causal inference in in-distribution settings when variable names and textual expressions used in the queries are similar to those in the training set, but fail in out-of-distribution settings generated by perturbing these queries. Corr2Cause is a challenging task for LLMs, and would be helpful in guiding future research on improving LLMs' pure reasoning skills and generalizability. Our data is at https://huggingface.co/datasets/causalnlp/corr2cause. Our code is at https://github.com/causalNLP/corr2cause.
研究の動機と目的
- 現在のLLMsが経験的知識なしで相関から因果を推定できるかを評価する。
- 純粋な因果推論をNLPモデルで評価する大規模データセットを構築する。
- Corr2Cause上でのアーキテクチャ別およびファインチューニング後のモデル性能を分析する。
- 純粋な因果推論の一般化とアウトオブ分布入力への頑健性を調査する。
提案手法
- Corr2Causeタスクを定義する:関係を表す相関ステートメントと因果関係仮説を有効性ラベルへ変換する関数f(s,h) -> vを用いる。
- 構造因果モデル(DGCMs、d-separation、MECs)と因果発見原理から>200Kサンプルのデータセットを生成する。
- PCアルゴリズム風のデータ生成を用いて、仮定された関係がMarkov同値クラス内のすべてのグラフで成り立つかを判定する。
- DSと仮説を自然言語のプロンプトへ言語化し、LLM評価に用いる。
- Corr2Causeで17のLLMs(BERTベースのNLI、RoBERTa、GPTファミリ、LLaMA等)をゼロショットおよびファインチューニング設定で評価する。
- パラフレーズや変数のリファクタリングによる頑健性チェックを実施し、一般化を評価する。

実験結果
リサーチクエスチョン
- RQ1純粋なCorr2Cause因果推論タスクに対して、既製のLLMsはどの程度性能を発揮するか?
- RQ2ファインチューニングは因果推論スキルの改善につながるか、分布シフトに対して堅牢な gains が得られるか?
- RQ3パーパラフレーズや変数名の変更などの撹乱でモデルが表面的な手掛かりに依存しているのか、真の推論を行っているのかを検証できるか?
主な発見
| Model | F1 | Precision | Recall | Accuracy |
|---|---|---|---|---|
| BART MNLI | 33.38 | 31.59 | 35.38 | 78.50 |
| RoBERTa MNLI | 22.79 | 34.73 | 16.96 | 82.50 |
| DeBERTa MNLI | 14.52 | 14.71 | 14.33 | 74.31 |
| DistilBERT MNLI | 20.70 | 24.12 | 18.13 | 78.85 |
| GPT-3 Davinci | 27.82 | 16.57 | 86.55 | 31.61 |
| GPT-3 Instruct (text-davinci-001) | 17.99 | 11.84 | 37.43 | 48.04 |
| GPT-3 Instruct (text-davinci-002) | 21.87 | 13.46 | 58.19 | 36.69 |
| GPT-3 Instruct (text-davinci-003) | 15.72 | 13.40 | 19.01 | 68.97 |
| GPT-3.5 | 21.69 | 17.79 | 27.78 | 69.46 |
| GPT-4 | 29.08 | 20.92 | 47.66 | 64.60 |
| GPT-3 Ada (finetuned) | 79.85 | 70.47 | 92.11 | 92.92 |
| GPT-3 Babbage (finetuned) | 78.19 | 69.98 | 88.60 | 92.48 |
| GPT-3 Curie (finetuned) | 81.23 | 75.00 | 88.60 | 93.77 |
| GPT-3 Davinci (finetuned) | 85.52 | 80.26 | 91.52 | 95.28 |
| GPT2 (finetuned) | 89.18 | 88.03 | 90.35 | 96.66 |
| GPT2-Large (finetuned) | 94.29 | 92.18 | 96.49 | 98.22 |
| GPT2-XL (finetuned) | 94.30 | 91.94 | 96.78 | 98.22 |
| LLaMA-7B (finetuned) | 91.98 | 88.62 | 95.61 | 97.46 |
| LLaMa2-7B (finetuned) | 92.92 | 90.11 | 95.91 | 97.77 |
| RoBERTa-Large MNLI (finetuned) | 94.74 | 92.24 | 97.37 | 98.35 |
- ほとんどの既製LLMsはCorr2Causeで性能が低く、ほぼランダム基準に近い。
- ファインチューニングされていないモデル間での最高のF1は33.38%(BART MNLI)。
- ファインチューニングは大きな改善をもたらす(例:RoBERTa-Large MNLIは元のテストセットでF1が94.74%に達成)、しかし頑健性テストではパラフレーズや変数リファクタリングで顕著な低下を示す。
- 頑健性テストは顕著な一般化ギャップを示す;パラフレーズでF1が最大39.29%低下、変数名の変更で最大62.3%低下。
- ファインチューニング済みモデルは個別関係の性能が高い(例:Is-Parent、Is-Descendant、Has-ConfounderはF1>96%を超える)、しかしHas-Colliderは依然として弱い。
- データセットは純粋な因果推論の一般化課題を示し、今後の研究で対抗的テストの必要性を強調している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。