QUICK REVIEW

[论文解读] The Case for Evaluating Causal Models Using Interventional Measures and Empirical Data

Amanda Gentzel, Dan Garant|arXiv (Cornell University)|Oct 11, 2019

Explainable Artificial Intelligence (XAI)被引用 19

一句话总结

本文主张通过真实世界经验数据中的干预性度量来评估因果推断算法，而非依赖合成数据和结构/观测性度量。通过回顾近期文献，本文表明此类评估极为罕见，但可行且对评估现实世界效用和泛化能力至关重要，结果显示使用经验干预评估与传统方法相比存在显著性能差异。

ABSTRACT

Causal inference is central to many areas of artificial intelligence, including complex reasoning, planning, knowledge-base construction, robotics, explanation, and fairness. An active community of researchers develops and enhances algorithms that learn causal models from data, and this work has produced a series of impressive technical advances. However, evaluation techniques for causal modeling algorithms have remained somewhat primitive, limiting what we can learn from experimental studies of algorithm performance, constraining the types of algorithms and model representations that researchers consider, and creating a gap between theory and practice. We argue for more frequent use of evaluation techniques that examine interventional measures rather than structural or observational measures, and that evaluate those measures on empirical data rather than synthetic data. We survey the current practice in evaluation and show that the techniques we recommend are rarely used in practice. We show that such techniques are feasible and that data sets are available to conduct such evaluations. We also show that these techniques produce substantially different results than using structural measures and synthetic data.

研究动机与目标

解决因果建模算法评估实践中的缺口，这些实践通常依赖合成数据和结构度量，而非真实世界的干预性数据。
论证当前评估技术无法有效评估算法是否能泛化到现实系统或准确估计干预效应。
证明在真实世界数据上进行干预性评估是可行的，并且与传统评估方法相比会产生显著不同的结果。
鼓励社区将干预性度量和经验数据作为算法评估的标准组成部分常规采用。
推动创建并共享具有已知干预效应的数据集，以实现对因果模型更广泛、更可靠的评估。

提出的方法

作者将评估分解为三个组成部分：数据源、算法和评估度量，从而实现对评估实践的模块化分析。
他们对顶级人工智能/机器学习会议中最近的111篇论文进行了调查，以量化不同评估技术的使用情况，重点关注数据源、算法类型和评估度量。
该研究使用总变异距离（TVD）评估因果模型，将估计的干预分布与真实世界经验数据中测量的基准干预效应进行比较。
对于经验数据，作者通过测量不同处理条件（例如 T=0 和 T=1）下的结果来模拟干预，从而估计真实 P(O|do(T=t))。
他们对参数化因果模型应用 do-演算，以生成估计的干预分布 P̂(O|do(T=t))，并与真实 P(O|do(T=t)) 进行比较。
评估框架使用 TVD 作为干预性度量：TVD = 1/2 * Σ|P(O=o|do(T=t)) - P̂(O=o|do(T=t))|，提供对模型准确性的数值评估。

实验结果

研究问题

RQ1在当前因果建模算法的评估中，干预性度量和经验数据的使用频率如何？
RQ2依赖合成数据和结构/观测性度量评估因果模型存在哪些局限性？
RQ3在真实世界数据上进行干预性评估是否会产生与传统评估方法显著不同的性能排名？
RQ4当前评估实践在多大程度上阻碍了因果推断算法在现实世界中的采用和可信度？
RQ5创建并共享具有已知干预效应的数据集以实现更广泛评估，在实践中面临哪些挑战，是否可行？

主要发现

在91篇被评估的论文中仅有6篇（6.6%）使用了经验数据上的干预性度量，表明最相关的评估技术被广泛忽视。
在91篇论文中，共有11篇（12.1%）使用了干预性度量，但其中仅有6篇使用了经验数据，表明在真实数据上进行干预性评估极为罕见。
调查显示，82%的论文评估了因果模型，但大多数依赖于合成数据和结构度量，限制了外部有效性。
使用TVD的经验干预评估显示，在软件数据集上GES表现最佳，这一结果可能无法通过仅使用合成或观测度量识别。
该研究证明，使用真实世界数据的干预性度量进行评估，与传统方法相比会产生显著不同的性能排名，凸显了当前实践可能导致误导性结论的风险。
作者得出结论：当前评估技术不足以评估现实世界效用，将评估扩展至包含经验干预数据是确保可信度和更广泛应用的必要条件。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。