QUICK REVIEW

[论文解读] Gradients of Counterfactuals

Mukund Sundararajan, Ankur Taly|arXiv (Cornell University)|Nov 8, 2016

Explainable Artificial Intelligence (XAI)参考文献 12被引用 79

一句话总结

本文提出内部梯度（Interior Gradients）方法，通过计算对原始输入进行缩放后的反事实输入的梯度，以改进深度神经网络中的特征重要性归因。与标准梯度不同，后者可能因网络饱和而消失，内部梯度能更好地捕捉有意义的特征贡献，并且其总和恰好等于预测分数，从而实现可靠、易于实现的可解释性，且无需修改网络架构。

ABSTRACT

Gradients have been used to quantify feature importance in machine learning models. Unfortunately, in nonlinear deep networks, not only individual neurons but also the whole network can saturate, and as a result an important input feature can have a tiny gradient. We study various networks, and observe that this phenomena is indeed widespread, across many inputs. We propose to examine interior gradients, which are gradients of counterfactual inputs constructed by scaling down the original input. We apply our method to the GoogleNet architecture for object recognition in images, as well as a ligand-based virtual screening network with categorical features and an LSTM based language model for the Penn Treebank dataset. We visualize how interior gradients better capture feature importance. Furthermore, interior gradients are applicable to a wide variety of deep networks, and have the attribution property that the feature importance scores sum to the the prediction score. Best of all, interior gradients can be computed just as easily as gradients. In contrast, previous methods are complex to implement, which hinders practical adoption.

研究动机与目标

解决标准梯度在深度网络中的局限性，即重要特征可能因饱和而显示接近零的梯度。
开发一种简单易实现的特征重要性方法，无需网络插桩或复杂修改。
确保特征重要性得分总和恰好等于模型的预测结果，满足归因属性。
为实践者提供实用且直观的深度学习模型解释方法，而无需深入掌握网络架构知识。

提出的方法

计算模型输出相对于输入缩放版本的梯度，其中每个输入特征乘以一个标量 α ∈ [0,1]，形成反事实输入。
将内部梯度定义为在 α = 1 处沿从原点到原始输入路径计算的模型输出相对于输入的梯度。
通过从零输入到原始输入的插值路径上的梯度路径积分，计算更稳健且一致的归因。
将该方法应用于多种架构：用于图像分类的 Inception 模型、基于配体的虚拟筛选网络（含类别特征）以及用于语言建模的 LSTM。
通过根据其内部梯度大小缩放原始图像中的像素强度来可视化特征重要性，生成更具直观性的显著性图。
确保所有特征重要性得分的总和等于模型的输出预测，满足归因属性。

实验结果

研究问题

RQ1标准梯度能否在深度网络中可靠地反映特征重要性，尤其是在网络饱和时？
RQ2如何在不修改网络架构或无需复杂插桩的情况下计算特征重要性？
RQ3是否能通过一种简单、基于梯度的方法，生成总和恰好等于模型预测结果的归因分数？
RQ4所提出的方法是否能在多种深度学习模型上生成更直观且一致的显著性图？

主要发现

在图像分类任务中，标准梯度往往无法突出相关特征，例如在单反相机图像中未能突出相机本体，反而将高重要性分配给无关区域（如图像左侧或顶部）。
在剔除无关图像区域后，模型的预测分数几乎保持不变（例如从 0.9938 上升至 0.9966），证实高梯度并不对应实际的特征重要性。
内部梯度生成了更具直观性的显著性图，能正确突出相机及其相关上下文，与人类感知一致。
在基于配体的虚拟筛选网络中，内部梯度能正确归因于具有不同化学环境的原子，即使标准梯度因饱和而失效。
在 LSTM 语言模型中，内部梯度正确识别出 'more' 对下一个词 'than' 具有预测性，而标准梯度则给出接近零且不符合直觉的归因。
所有特征的内部梯度得分总和与模型输出预测值高度吻合（例如 'than' 的预测值为 0.5307，内部梯度总和为 0.5322），满足归因属性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。