[論文レビュー] Multi-Agent Causal Discovery Using Large Language Models
本論文は、Meta Agents、Coding Agents、およびHybridバリアントを含む、複数エージェントのLLMを用いて因果発見を行う3モデルフレームワークMACを提案する。複数のデータセットで評価し、単一エージェントおよび古典的手法と比較して有利な結果を示している。
Causal discovery aims to identify causal relationships between variables and is a critical research area in machine learning. Traditional methods focus on statistical or machine learning algorithms to uncover causal links from structured data, often overlooking the valuable contextual information provided by metadata. Large language models (LLMs) have shown promise in creating unified causal discovery frameworks by incorporating both structured data and metadata. However, their potential in multi-agent settings remains largely unexplored. To address this gap, we introduce the Multi-Agent Causal Discovery Framework (MAC), which consists of two key modules: the Debate-Coding Module (DCM) and the Meta-Debate Module (MDM). The DCM begins with a multi-agent debating and coding process, where agents use both structured data and metadata to collaboratively select the most suitable statistical causal discovery (SCD) method. The selected SCD is then applied to the structured data to generate an initial causal graph. This causal graph is transformed into causal metadata through the Meta Fusion mechanism. With all the metadata, MDM then refines the causal structure by leveraging a multi-agent debating framework. Extensive experiments across five datasets demonstrate that MAC outperforms both traditional statistical causal discovery methods and existing LLM-based approaches, achieving state-of-the-art performance.
研究の動機と目的
- ドメイン知識が乏しいまたはコストが高い場合のデータ駆動型因果発見を動機づける。
- 複数エージェントLLMの能力を活用して因果グラフ学習を強化する。
- 推論(ディベート)と統計的因果発見アルゴリズムを統合する。
- ベースライン手法とMACの3つの構成(Meta、Coding、Hybrid)を比較する。
提案手法
- 三つのMACモデルを導入する: Meta Agents Model(ディベートベースの推論で因果グラフを出力する)。
- Debate-Coding Moduleを導入する(ディベータが因果発見アルゴリズムをコーディング実行を介して選択・実装する)。
- 推論と統計を組み合わせたHybridモデルを定義する(Coding-Meta Hybridおよび Debating-Coding Hybrid)。
- エージェントの推論と行動のために、ReActプロンプティングとゼロショット/フェウショットプロンプティング戦略を用いてGPT-3.5-turboを使用する。
- 連続変数データセットで隣接行列指標(SHD、FPR、FNR、 Precision、Recall、F1)およびNHDを用いて評価する。

実験結果
リサーチクエスチョン
- RQ1マルチエージェントLLMシステムは単一エージェントLLMおよび従来アルゴリズムよりも因果グラフ発見を改善できるか?
- RQ2純粋に推論ベース、純粋にコーディングベース、ハイブリッドMAC構成の因果発見における相対的な長所は何か?
- RQ3MAC手法は車データ・気候データ・タンパク質データなどの多様なデータセットで、PC・厳密探索・DirectLiNGAM・LLMベースのベースラインと比較してどう性能があるか?
主な発見
| モデル | SHD | NHD | FNR | FPR | 適合率 | 再現率 | F1 |
|---|---|---|---|---|---|---|---|
| PC (Auto MPG) | 8 | 0.48 | 0.8 | 0.4 | 0.111 | 0.2 | 0.142 |
| Exact Search (Auto MPG) | 7 | 0.44 | 0.8 | 0.35 | 0.125 | 0.2 | 0.153 |
| DirectLiNGAM (Auto MPG) | 8 | 0.48 | 0.8 | 0.4 | 0.111 | 0.2 | 0.142 |
| PC LLM-KBCI (Auto MPG) | 7 | 0.44 | 0.8 | 0.35 | 0.125 | 0.2 | 0.1538 |
| ES LLM-KBCI (Auto MPG) | 7 | 0.44 | 0.8 | 0.35 | 0.125 | 0.2 | 0.1538 |
| DirectLiNGAM LLM-KBCI (Auto MPG) | 7 | 0.4 | 0.6 | 0.35 | 0.222 | 0.4 | 0.285 |
| Single-agent zero-shot prompting (Auto MPG) | 7 | 0.28 | 0.8 | 0.15 | 0.25 | 0.2 | 0.222 |
| Single-agent zero-shot prompting (GPT-4o Auto MPG) | 8 | 0.36 | 0.6 | 0.3 | 0.25 | 0.4 | 0.307 |
| Coding Agents Model (Auto MPG) | 4 | 0.48 | 0 | 0.45 | 0.357 | 1 | 0.526 |
| Meta Agents Model (Auto MPG) | 5 | 0.2 | 0.4 | 0.15 | 0.5 | 0.6 | 0.545 |
| Coding-Debating Hybrid (Auto MPG) | 8 | 0.48 | 0.8 | 0.4 | 0.111 | 0.2 | 0.142 |
| Coding-Meta Hybrid (Auto MPG) | 6 | 0.32 | 0.4 | 0.3 | 0.333 | 0.6 | 0.428 |
| PC (DWD) | 9 | 0.305 | 0.833 | 0.2 | 0.142 | 0.167 | 0.153 |
| Exact Search (DWD) | 6 | 0.194 | 0.167 | 0.2 | 0.454 | 0.833 | 0.588 |
| DirectLiNGAM (DWD) | 10 | 0.388 | 0.666 | 0.333 | 0.166 | 0.333 | 0.222 |
| PC LLM-KBCI (DWD) | 7 | 0.222 | 0.666 | 0.133 | 0.333 | 0.333 | 0.333 |
| ES LLM-KBCI (DWD) | 7 | 0.222 | 0.333 | 0.2 | 0.4 | 0.666 | 0.5 |
| DirectLiNGAM LLM-KBCI (DWD) | 9 | 0.305 | 0.333 | 0.3 | 0.3076 | 0.666 | 0.421 |
| Single-agent zero-shot prompting (DWD) | 10 | 0.361 | 1.0 | 0.233 | 0 | 0 | 0 |
| Single-agent zero-shot prompting (GPT-4o DWD) | 11 | 0.388 | 1.0 | 0.266 | 0 | 0 | 0 |
| Coding Agents Model (DWD) | 9 | 0.305 | 0.833 | 0.2 | 0.142 | 0.166 | 0.153 |
| Meta Agents Model (DWD) | 5 | 0.194 | 0.833 | 0.06 | 0.333 | 0.1666 | 0.222 |
| Meta-Coding Hybrid (DWD) | 7 | 0.277 | 0.666 | 0.166 | 0.285 | 0.333 | 0.307 |
| Coding-Debating Hybrid (DWD) | 7 | 0.25 | 0.833 | 0.133 | 0.2 | 0.166 | 0.182 |
| PC (Sachs) | 24 | 0.206 | 0.473 | 0.156 | 0.384 | 0.526 | 0.444 |
| Exact Search (Sachs) | 31 | 0.330 | 0.684 | 0.264 | 0.181 | 0.315 | 0.230 |
| DirectLiNGAM (Sachs) | 29 | 0.289 | 0.473 | 0.254 | 0.277 | 0.526 | 0.363 |
| PC LLM-KBCI (Sachs) | 30 | 0.314 | 0.736 | 0.225 | 0.178 | 0.263 | 0.212 |
| ES LLM-KBCI (Sachs) | 31 | 0.33 | 0.68 | 0.264 | 0.181 | 0.315 | 0.23 |
| DirectLiNGAM LLM-KBCI (Sachs) | 29 | 0.289 | 0.473 | 0.254 | 0.277 | 0.526 | 0.363 |
| Single-agent zero-shot prompting (Sachs) | 31 | 0.363 | 0.526 | 0.333 | 0.209 | 0.473 | 0.29 |
| Single-agent zero-shot prompting (GPT-4o Sachs) | 18 | 0.214 | 0.842 | 0.098 | 0.230 | 0.157 | 0.187 |
| Coding Agents Model (Sachs) | 29 | 0.28 | 0.47 | 0.25 | 0.277 | 0.526 | 0.363 |
| Meta Agents Model (Sachs) | 35 | 0.33 | 0.842 | 0.235 | 0.111 | 0.157 | 0.13 |
| Meta-Coding Hybrid (Sachs) | 28 | 0.272 | 0.421 | 0.245 | 0.305 | 0.587 | 0.4 |
| Coding-Meta Hybrid (Sachs) | 23 | 0.198 | 0.894 | 0.068 | 0.222 | 0.105 | 0.142 |
| Coding-Debating Hybrid (Sachs) | 7 | 0.25 | 0.833 | 0.133 | 0.2 | 0.166 | 0.182 |
- Coding Agents ModelはAuto MPGで最良のSHD(4)と高精度(1)を達成。
- Meta Agents ModelはAuto MPGでSHD5とバランスの取れた指標で強力な性能。
- DWD気候データではMeta Agents ModelがSHD5とNHD0.194を示し古典的手法を上回る。
- Sachsタンパク質データでは単一エージェントGPT-4oが低いSHD(18)と強いFNR(0.098)を示す一方、複数エージェント系(Coding-Debating Hybrid、Coding-Meta Hybrid)は競争力のある結果。
- データセット全体で、古典的SCD手法(PC、Exact Search、DirectLiNGAM)は一般にMAC系よりSHD値が高い。
- 全体として、提案された多エージェントフレームワークはしばしば構造的精度が高く、ベースラインと比較してF1スコアが競争的または卓越している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。