Skip to main content
QUICK REVIEW

[论文解读] Counterfactuals and Causability in Explainable Artificial Intelligence: Theory, Algorithms, and Applications

Yu-Liang Chou, Catarina Moreira|arXiv (Cornell University)|Mar 7, 2021
Explainable Artificial Intelligence (XAI)参考文献 124被引用 18
一句话总结

本文对可解释人工智能(XAI)中的模型无关反事实解释进行了系统性综述,揭示了当前算法缺乏正式的因果基础,反而依赖于虚假相关性。作者提出了六类反事实方法的新分类体系,并主张真正的可解释性在XAI中需要与正式的因果理论相结合,以避免产生偏见、错误或次优的解释。

ABSTRACT

There has been a growing interest in model-agnostic methods that can make deep learning models more transparent and explainable to a user. Some researchers recently argued that for a machine to achieve a certain degree of human-level explainability, this machine needs to provide human causally understandable explanations, also known as causability. A specific class of algorithms that have the potential to provide causability are counterfactuals. This paper presents an in-depth systematic review of the diverse existing body of literature on counterfactuals and causability for explainable artificial intelligence. We performed an LDA topic modelling analysis under a PRISMA framework to find the most relevant literature articles. This analysis resulted in a novel taxonomy that considers the grounding theories of the surveyed algorithms, together with their underlying properties and applications in real-world data. This research suggests that current model-agnostic counterfactual algorithms for explainable AI are not grounded on a causal theoretical formalism and, consequently, cannot promote causability to a human decision-maker. Our findings suggest that the explanations derived from major algorithms in the literature provide spurious correlations rather than cause/effects relationships, leading to sub-optimal, erroneous or even biased explanations. This paper also advances the literature with new directions and challenges on promoting causability in model-agnostic approaches for explainable artificial intelligence.

研究动机与目标

  • 调查XAI中现有的模型无关反事实算法是否基于正式的因果理论。
  • 识别并分类当前反事实生成技术的理论与方法基础。
  • 评估当前反事实解释是否真正促进了可解释性——即人类可理解的因果关系,而非虚假相关性。
  • 通过整合正式因果模型与概率图框架,提出实现XAI中可解释性的新研究方向。
  • 指出当前评估指标的局限性,并倡导采用以用户为中心、标准化的XAI评估协议。

提出的方法

  • 采用PRISMA框架进行系统性文献综述,以识别与XAI中反事实和可解释性相关的研究。
  • 应用潜在狄利克雷分布(LDA)主题建模分析所调研文献的主题结构,并提取核心研究主题。
  • 基于六种理论方法——实例中心型、约束中心型、遗传中心型、回归中心型、博弈论中心型、基于案例推理中心型以及概率中心型——提出一种新型模型无关反事实算法分类体系。
  • 将现有反事实算法与正式因果框架进行评估,特别是基于Pearl(2009)定义的结构因果模型(SCM)。
  • 通过区分客观层面、功能层面与用户层面的指标,识别出当前XAI评估中的差距,强调以人类为中心的评估的必要性。
  • 倡导将因果感知的用户界面与交互式探索工具整合,以增强用户理解力与说服力。

实验结果

研究问题

  • RQ1当前XAI中的模型无关反事实算法是否基于正式的因果理论?
  • RQ2现有反事实解释在多大程度上反映了真实的因果关系,而非虚假相关性?
  • RQ3如何基于其底层理论基础构建统一的反事实生成方法分类体系?
  • RQ4在评估XAI系统的可解释性方面,特别是用户层面,面临哪些关键挑战?
  • RQ5如何将因果模型整合到智能用户界面中,以增强可解释性与用户理解?

主要发现

  • 当前的模型无关反事实算法并未基于正式的因果理论(如结构因果模型),导致其解释基于相关性而非因果性。
  • 所调研的大多数算法生成的反事实反映了虚假相关性,导致对人类决策者而言次优、错误或有偏见的解释。
  • 提出了一种包含六类不同方法的新型分类体系——实例中心型、约束中心型、遗传中心型、回归中心型、博弈论中心型、基于案例推理中心型以及概率中心型,用于分类现有反事实方法。
  • 本研究识别出XAI评估中的关键缺口:现有指标(如保真度与稳定性)不足以评估解释是否真正实现了可解释性。
  • 研究呼吁将正式因果框架整合到XAI中,以实现不仅可解释,而且具有因果意义与可信度的解释。
  • 利用因果推理与交互式探索的智能用户界面在增强用户理解力并促进现实应用中可解释性方面展现出巨大潜力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。