Skip to main content
QUICK REVIEW

[论文解读] The (Un)reliability of saliency methods

Pieter-Jan Kindermans, Sara Hooker|arXiv (Cornell University)|Nov 2, 2017
Explainable Artificial Intelligence (XAI)被引用 163
一句话总结

本文表明,许多显著性方法在输入不变性方面失败:简单的输入偏移可以在不影响模型的情况下改变归因,只有某些参考点方法(如 PatternAttribution)在某些变换下才能保持不变。

ABSTRACT

Saliency methods aim to explain the predictions of deep neural networks. These methods lack reliability when the explanation is sensitive to factors that do not contribute to the model prediction. We use a simple and common pre-processing step ---adding a constant shift to the input data--- to show that a transformation with no effect on the model can cause numerous methods to incorrectly attribute. In order to guarantee reliability, we posit that methods should fulfill input invariance, the requirement that a saliency method mirror the sensitivity of the model with respect to transformations of the input. We show, through several examples, that saliency methods that do not satisfy input invariance result in misleading attribution.

研究动机与目标

  • 通过将输入不变性定义为对可信解释至关重要,来提高显著性方法的可靠性。
  • 证明即使模型预测相同,常数输入偏移也可能改变归因。
  • 评估不同显著性类别(梯度、信号方法、归因方法)在输入偏移下的表现。
  • 突出参考点和数据归一化在实现不变性中的作用。

提出的方法

  • 将输入不变性定义为反映模型对输入变换的敏感性。
  • 使用 MNIST 进行实验,比较在常数平移相关的输入对上,不同方法的显著性热图。
  • 在不同参考点下评估梯度、信号和归因方法(GI、IG、DTD)的输入不变性。
  • 分析不同参考点(零向量、黑图像、PA 基线、LRP)如何影响归因不变性。
  • 展示数据归一化如何帮助某些方法满足输入不变性。

实验结果

研究问题

  • RQ1在简单输入变换如恒定平移下,常见的显著性方法是否满足输入不变性?
  • RQ2在输入不变性方面,梯度、信号和归因方法有何比较?
  • RQ3参考点选择对诸如整合梯度和深度泰勒分解等归因方法的可靠性有何影响?
  • RQ4数据归一化能否缓解显著性方法在输入不变性方面的失败?

主要发现

  • 在输入被恒定向量平移时,许多显著性方法不满足输入不变性,归因在预测不变的情况下发生改变。
  • 梯度和信号方法(包括原始梯度、PatternNet 和 Guided Backprop)在权重相同的网络比较时可能不变,但归因方法的稳定性取决于参考点,可能失败。
  • 梯度乘以输入对均值偏移敏感,未满足输入不变性。
  • 整合梯度和深度泰勒分解取决于所选参考点,只有某些参考点和变换才能实现不变性。
  • PatternAttribution 在所考虑的平移下始终满足输入不变性,因为它包含数据协方差。
  • SmoothGrad 继承底层方法的敏感性,对于某些参考点可能不具不变性,但在 PA 或黑图像参考下可以实现不变性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。