QUICK REVIEW

[論文レビュー] Multi-Agent Causal Discovery Using Large Language Models

Hao Duong Le, Xin Xia|arXiv (Cornell University)|Jul 21, 2024

Data Quality and Management被引用数 5

ひとこと要約

本論文は、Meta Agents、Coding Agents、およびHybridバリアントを含む、複数エージェントのLLMを用いて因果発見を行う3モデルフレームワークMACを提案する。複数のデータセットで評価し、単一エージェントおよび古典的手法と比較して有利な結果を示している。

ABSTRACT

Causal discovery aims to identify causal relationships between variables and is a critical research area in machine learning. Traditional methods focus on statistical or machine learning algorithms to uncover causal links from structured data, often overlooking the valuable contextual information provided by metadata. Large language models (LLMs) have shown promise in creating unified causal discovery frameworks by incorporating both structured data and metadata. However, their potential in multi-agent settings remains largely unexplored. To address this gap, we introduce the Multi-Agent Causal Discovery Framework (MAC), which consists of two key modules: the Debate-Coding Module (DCM) and the Meta-Debate Module (MDM). The DCM begins with a multi-agent debating and coding process, where agents use both structured data and metadata to collaboratively select the most suitable statistical causal discovery (SCD) method. The selected SCD is then applied to the structured data to generate an initial causal graph. This causal graph is transformed into causal metadata through the Meta Fusion mechanism. With all the metadata, MDM then refines the causal structure by leveraging a multi-agent debating framework. Extensive experiments across five datasets demonstrate that MAC outperforms both traditional statistical causal discovery methods and existing LLM-based approaches, achieving state-of-the-art performance.

研究の動機と目的

ドメイン知識が乏しいまたはコストが高い場合のデータ駆動型因果発見を動機づける。
複数エージェントLLMの能力を活用して因果グラフ学習を強化する。
推論（ディベート）と統計的因果発見アルゴリズムを統合する。
ベースライン手法とMACの3つの構成（Meta、Coding、Hybrid）を比較する。

提案手法

三つのMACモデルを導入する: Meta Agents Model（ディベートベースの推論で因果グラフを出力する）。
Debate-Coding Moduleを導入する（ディベータが因果発見アルゴリズムをコーディング実行を介して選択・実装する）。
推論と統計を組み合わせたHybridモデルを定義する（Coding-Meta Hybridおよび Debating-Coding Hybrid）。
エージェントの推論と行動のために、ReActプロンプティングとゼロショット/フェウショットプロンプティング戦略を用いてGPT-3.5-turboを使用する。
連続変数データセットで隣接行列指標（SHD、FPR、FNR、 Precision、Recall、F1）およびNHDを用いて評価する。

実験結果

リサーチクエスチョン

RQ1マルチエージェントLLMシステムは単一エージェントLLMおよび従来アルゴリズムよりも因果グラフ発見を改善できるか？
RQ2純粋に推論ベース、純粋にコーディングベース、ハイブリッドMAC構成の因果発見における相対的な長所は何か？
RQ3MAC手法は車データ・気候データ・タンパク質データなどの多様なデータセットで、PC・厳密探索・DirectLiNGAM・LLMベースのベースラインと比較してどう性能があるか？

主な発見

モデル	SHD	NHD	FNR	FPR	適合率	再現率	F1
PC (Auto MPG)	8	0.48	0.8	0.4	0.111	0.2	0.142
Exact Search (Auto MPG)	7	0.44	0.8	0.35	0.125	0.2	0.153
DirectLiNGAM (Auto MPG)	8	0.48	0.8	0.4	0.111	0.2	0.142
PC LLM-KBCI (Auto MPG)	7	0.44	0.8	0.35	0.125	0.2	0.1538
ES LLM-KBCI (Auto MPG)	7	0.44	0.8	0.35	0.125	0.2	0.1538
DirectLiNGAM LLM-KBCI (Auto MPG)	7	0.4	0.6	0.35	0.222	0.4	0.285
Single-agent zero-shot prompting (Auto MPG)	7	0.28	0.8	0.15	0.25	0.2	0.222
Single-agent zero-shot prompting (GPT-4o Auto MPG)	8	0.36	0.6	0.3	0.25	0.4	0.307
Coding Agents Model (Auto MPG)	4	0.48	0	0.45	0.357	1	0.526
Meta Agents Model (Auto MPG)	5	0.2	0.4	0.15	0.5	0.6	0.545
Coding-Debating Hybrid (Auto MPG)	8	0.48	0.8	0.4	0.111	0.2	0.142
Coding-Meta Hybrid (Auto MPG)	6	0.32	0.4	0.3	0.333	0.6	0.428
PC (DWD)	9	0.305	0.833	0.2	0.142	0.167	0.153
Exact Search (DWD)	6	0.194	0.167	0.2	0.454	0.833	0.588
DirectLiNGAM (DWD)	10	0.388	0.666	0.333	0.166	0.333	0.222
PC LLM-KBCI (DWD)	7	0.222	0.666	0.133	0.333	0.333	0.333
ES LLM-KBCI (DWD)	7	0.222	0.333	0.2	0.4	0.666	0.5
DirectLiNGAM LLM-KBCI (DWD)	9	0.305	0.333	0.3	0.3076	0.666	0.421
Single-agent zero-shot prompting (DWD)	10	0.361	1.0	0.233	0	0	0
Single-agent zero-shot prompting (GPT-4o DWD)	11	0.388	1.0	0.266	0	0	0
Coding Agents Model (DWD)	9	0.305	0.833	0.2	0.142	0.166	0.153
Meta Agents Model (DWD)	5	0.194	0.833	0.06	0.333	0.1666	0.222
Meta-Coding Hybrid (DWD)	7	0.277	0.666	0.166	0.285	0.333	0.307
Coding-Debating Hybrid (DWD)	7	0.25	0.833	0.133	0.2	0.166	0.182
PC (Sachs)	24	0.206	0.473	0.156	0.384	0.526	0.444
Exact Search (Sachs)	31	0.330	0.684	0.264	0.181	0.315	0.230
DirectLiNGAM (Sachs)	29	0.289	0.473	0.254	0.277	0.526	0.363
PC LLM-KBCI (Sachs)	30	0.314	0.736	0.225	0.178	0.263	0.212
ES LLM-KBCI (Sachs)	31	0.33	0.68	0.264	0.181	0.315	0.23
DirectLiNGAM LLM-KBCI (Sachs)	29	0.289	0.473	0.254	0.277	0.526	0.363
Single-agent zero-shot prompting (Sachs)	31	0.363	0.526	0.333	0.209	0.473	0.29
Single-agent zero-shot prompting (GPT-4o Sachs)	18	0.214	0.842	0.098	0.230	0.157	0.187
Coding Agents Model (Sachs)	29	0.28	0.47	0.25	0.277	0.526	0.363
Meta Agents Model (Sachs)	35	0.33	0.842	0.235	0.111	0.157	0.13
Meta-Coding Hybrid (Sachs)	28	0.272	0.421	0.245	0.305	0.587	0.4
Coding-Meta Hybrid (Sachs)	23	0.198	0.894	0.068	0.222	0.105	0.142
Coding-Debating Hybrid (Sachs)	7	0.25	0.833	0.133	0.2	0.166	0.182

Coding Agents ModelはAuto MPGで最良のSHD(4)と高精度(1)を達成。
Meta Agents ModelはAuto MPGでSHD5とバランスの取れた指標で強力な性能。
DWD気候データではMeta Agents ModelがSHD5とNHD0.194を示し古典的手法を上回る。
Sachsタンパク質データでは単一エージェントGPT-4oが低いSHD(18)と強いFNR(0.098)を示す一方、複数エージェント系（Coding-Debating Hybrid、Coding-Meta Hybrid）は競争力のある結果。
データセット全体で、古典的SCD手法（PC、Exact Search、DirectLiNGAM）は一般にMAC系よりSHD値が高い。
全体として、提案された多エージェントフレームワークはしばしば構造的精度が高く、ベースラインと比較してF1スコアが競争的または卓越している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。