QUICK REVIEW

[论文解读] Causal Learning and Explanation of Deep Neural Networks via Autoencoded Activations

Michael Harradon, Jeff Druce|arXiv (Cornell University)|Feb 2, 2018

Explainable Artificial Intelligence (XAI)参考文献 17被引用 49

一句话总结

本论文提出一种用于 CNN 的因果可解释性框架，通过自编码器提取可人类理解的概念，然后建立贝叶斯网络以量化并可视化每个概念对 DNN 输出的因果影响。

ABSTRACT

Deep neural networks are complex and opaque. As they enter application in a variety of important and safety critical domains, users seek methods to explain their output predictions. We develop an approach to explaining deep neural networks by constructing causal models on salient concepts contained in a CNN. We develop methods to extract salient concepts throughout a target network by using autoencoders trained to extract human-understandable representations of network activations. We then build a bayesian causal model using these extracted concepts as variables in order to explain image classification. Finally, we use this causal model to identify and visualize features with significant causal influence on final classification.

研究动机与目标

在安全关键领域推动对 DNN 的因果解释的需求。
提出一个将输入、概念与输出相关联的、可人类理解的 DNN 因果模型。
开发一种无监督方法，从激活中提取低维、可解释的概念。
构建一个贝叶斯网络，以量化概念对分类的因果影响。
展示对具有高因果影响的概念进行可视化和问询的能力。

提出的方法

在多个 CNN 层训练自编码器，从激活中提取低维、可解释的概念，损失函数结合浅层重建、深层重建（对下游输出的 KL 散度）以及可解释性项（稀疏性、交叉熵、全变分）。
将训练好的自编码器插入网络中，使对编码概念进行干预，而非原始激活，保持统计关系。
构建因果模型 P(O, P, C)，其中概念 C 由激活获得，并通过对编码概念的干预将输入 P 与输出 O 联系起来。
通过将概念特征图置零进行干预，并收集数据以拟合贝叶斯网络，捕捉跨层的因果依赖。
定义并计算对概念或输入的干预对输出预测的期望因果效应（公式6）。
通过它们的期望因果效应对顶级概念进行可视化，并提供最近邻上下文以帮助解释。

实验结果

研究问题

RQ1如何用人类可理解的概念而非原始神经元来对 DNN 进行因果建模？
RQ2通过自编码的激活是否能产生可解释的概念，在进行干预时揭示对输出的因果影响？
RQ3如何量化和可视化概念对 DNN 分类的因果影响？
RQ4在概念上构建贝叶斯网络是否能实现稳健的解释和对错误分类的调试？

主要发现

一个在可被人理解的概念上运作的 DNN 的因果模型是可行且对解释性有帮助。
基于自编码器的概念提取方法能在多层网络中产生低维、可解释的特征。
对自编码概念的干预允许通过贝叶斯网络估计其对输出的因果效应。
通过期望因果效应对输出的顶级概念可以被识别并可视化，以解释分类。
该方法在 VGG16/19 架构、Birds200 与 Inria Pedestrian 数据集上进行演示，揭示了诸如头部轮廓和身体特征等可解释的因果因素。
论文提供了按数据集平均因果影响对概念特征进行定量排名的结果（示例见图9）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。