QUICK REVIEW

[論文レビュー] CLadder: Assessing Causal Reasoning in Language Models

Helmers, Flora, Devijver, Emilie|arXiv (Cornell University)|Dec 7, 2023

Natural Language Processing Techniques被引用数 8

ひとこと要約

この論文は、LLM の形式的因果推論を評価する 10k 質問データセット CLadder を紹介し、因果推論ステップと出力を一致させるプロンプト戦略 CausalCoT を提示して推論精度を向上させる。

ABSTRACT

The ability to perform causal reasoning is widely considered a core feature of intelligence. In this work, we investigate whether large language models (LLMs) can coherently reason about causality. Much of the existing work in natural language processing (NLP) focuses on evaluating commonsense causal reasoning in LLMs, thus failing to assess whether a model can perform causal inference in accordance with a set of well-defined formal rules. To address this, we propose a new NLP task, causal inference in natural language, inspired by the "causal inference engine" postulated by Judea Pearl et al. We compose a large dataset, CLadder, with 10K samples: based on a collection of causal graphs and queries (associational, interventional, and counterfactual), we obtain symbolic questions and ground-truth answers, through an oracle causal inference engine. These are then translated into natural language. We evaluate multiple LLMs on our dataset, and we introduce and evaluate a bespoke chain-of-thought prompting strategy, CausalCoT. We show that our task is highly challenging for LLMs, and we conduct an in-depth analysis to gain deeper insights into the causal reasoning abilities of LLMs. Our data is open-sourced at https://huggingface.co/datasets/causalNLP/cladder, and our code can be found at https://github.com/causalNLP/cladder.

研究の動機と目的

Pearl の因果推論フレームワークに基づく形式的因果推論をLLMが実行できるかを評価する。
因果回答と説明の ground-truth を伴う大規模で多様なデータセット CLadder を提供する（関連付け、介入、反事実クエリを含む）。
LLM から健全な因果推論を引き出すプロンプティング戦略（CausalCoT）を提供する。
現在のLLMにおける因果推論の限界を特定するため、モデルの性能と誤りパターンを調査する。

提案手法

因果推論エンジン（CI Engine）による identifiability 保証付きの記号的因果グラフに grounded な ground-truth クエリを作成する。
記号的クエリを物語とテンプレートに口述化して自然言語質問と対になる説明を 10K 作成する。
グラフ抽出、クエリの形式化、 estimand の導出、評価をガイドする多段階の chain-of-thought プロンプティングプロトコル CausalCoT を開発する。
CausalCoT の有無で GPT-4、GPT-3 系、LLaMa/Alpaca など幅広いLLMをすべての ladder rung で評価する。
rung ごとの性能、常識性 alignment（常識的/Nonsense/反常識的）、段階的推論品質を分析する。
データ品質チェックとアブレーションを提供し、データ汚染効果と文脈学習の利点を特定する。

実験結果

リサーチクエスチョン

RQ1LLM は因果推論エンジン経由で導出された回答でも形式的因果推論（Rung 1–3）を実行できるか。
RQ2 rung の複雑さとグラフ構造の違いが LL.M の性能にどう影響するか。
RQ3因果性指向の prompting 戦略（CausalCoT）は vanilla prompting と比べて LLM の精度を向上させるか。
RQ4常識性 alignment やデータ汚染が因果タスクの推論にどの程度影響するか。
RQ5現行LLM にとって推論過程のどのサブスキルが最も脆弱か。

主な発見

Model	Overall Acc.	Acc. by Rung 1	Acc. by Rung 2	Acc. by Rung 3	Comm.	Nonsens.	Anti-C.
Random	49.27	50.28	48.40	49.12	49.01	49.69	49.12
LLaMa	44.03	48.23	29.46	52.66	45.14	44.22	42.67
Alpaca	44.66	52.03	29.53	51.13	44.86	44.40	44.77
GPT-3 Non-Instr. (davinci)	49.92	50.00	49.75	50.00	49.06	49.97	50.72
GPT-3 Instr. (text-davinci-001)	51.40	51.30	52.63	50.47	54.31	50.13	50.05
GPT-3 Instr. (text-davinci-002)	53.15	50.85	56.96	51.90	55.33	52.47	51.81
GPT-3 Instr. (text-davinci-003)	56.26	51.11	62.97	54.96	56.83	54.79	57.49
GPT-3.5	52.18	51.80	54.78	50.32	54.09	50.68	52.09
GPT-4	62.03	63.01	62.82	60.55	62.27	63.09	60.47
+ CausalCoT	70.40	83.35	67.47	62.05	69.25	71.58	70.12

CausalCoT は全体で 70.40% の平均精度を達成し、CLadder で vanilla GPT-4 を 8.37 点上回った。
Rung 1 で最高の正解率を示し、質問が難しくなるにつれて Rung 3 で正解率が低下した。
CausalCoT は anti-常識的データの性能を 9.65 ポイント改善し、未見または非記憶化パターンへの頑健性を示唆した。
グラフ抽出（ステップ①）は比較的強力（ノード/エッジの高い F1）だが、形式的因果推論を要するステップ（②、③、⑤）はより困難。
指示調整済みモデルは非指示調整モデルより優れるが、形式的因果推論には依然苦戦。
インコンテキスト学習は特定のクエリタイプ（条件付き確率や NIE など）에서 exemplars の恩恵を受けやすい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。