QUICK REVIEW

[论文解读] Investigating the influence of noise and distractors on the interpretation of neural networks

Pieter-Jan Kindermans, Kristof T. Schütt|arXiv (Cornell University)|Nov 22, 2016

Explainable Artificial Intelligence (XAI)参考文献 4被引用 91

一句话总结

本文通过深度泰勒分解框架研究了噪声和干扰信号对神经网络可解释性的影响。提出了一种新的解释规则——$w^+$ 和 $a^+$，这些规则能够学习与任务相关的可变方向，在噪声条件下表现出优于基于梯度的方法（如显著性图和 $z$-规则）的鲁棒性，后者在噪声环境下性能显著下降。

ABSTRACT

Understanding neural networks is becoming increasingly important. Over the last few years different types of visualisation and explanation methods have been proposed. However, none of them explicitly considered the behaviour in the presence of noise and distracting elements. In this work, we will show how noise and distracting dimensions can influence the result of an explanation model. This gives a new theoretical insights to aid selection of the most appropriate explanation model within the deep-Taylor decomposition framework.

研究动机与目标

分析噪声和干扰信号如何影响神经网络解释方法的可靠性。
识别现有解释规则中隐含的假设，特别是在深度泰勒分解框架中的假设。
通过学习数据特定的可变方向，设计对噪声和干扰物具有鲁棒性的新解释规则。
在添加噪声的 MNIST 数据上评估这些规则的性能，并与显著性图和 $z$-规则等成熟方法进行比较。

提出的方法

使用生成模型，将观测数据 $\bm{x}$ 分解为与任务相关的 $\bm{a}_t s_t$、噪声 $A_n \bm{s}_n^T$ 和高斯噪声 $\mathbf{\epsilon}$，其中 $s_t$ 为目标信号。
应用深度泰勒分解，通过在根点 $\tilde{\bm{x}}^j$ 处进行一阶泰勒展开，逐层重新分配输出相关性，确保相关性守恒。
引入 $w^+$ 规则，利用线性投影的最速上升方向 $\bm{w}$，并通过激活输入神经元和基于 ReLU 的重缩放进行自适应调整。
提出 $a^+$ 规则，通过输入协方差矩阵 $X$ 的伪逆学习数据中的主成分可变方向，聚焦于与类别相关的关键信号方向。
采用根点选择策略，确保 $\bm{w}^T \tilde{\bm{x}}^j = 0$，以稳定分解过程并降低对噪声的敏感性。
在添加高斯噪声（σ = 0.0 到 0.8）的 MNIST 数据上验证方法，比较显著性图、$z$-规则、$w^+$ 和 $a^+$ 规则生成的热力图。

实验结果

研究问题

RQ1噪声和干扰信号如何影响基于梯度的解释方法（如显著性图和 $z$-规则）在神经网络解释中的可靠性？
RQ2深度泰勒分解框架中不同解释规则对数据分布和噪声结构隐含做出了哪些假设？
RQ3我们能否通过学习数据特定的可变方向而非依赖固定梯度方向，设计出对噪声具有鲁棒性的解释规则？
RQ4在噪声水平逐渐增加的情况下，$w^+$ 和 $a^+$ 规则与现有方法相比，在稳定性和可解释性方面表现如何？

主要发现

$z$-规则产生清晰但对噪声敏感的解释，在噪声增加时性能显著下降，因其假设生成模型无噪声。
显著性图在噪声下保持稳定，但会将相关性分配给背景区域，表明尽管具有鲁棒性，其可解释性仍有限。
$w^+$ 规则由于依赖全局梯度方向，会在整个输入图像上分配正相关性，但在噪声下仍保持稳定。
$a^+$ 规则聚焦于 MNIST 数字中高变化区域，如数字 '4' 和 '8' 中的间隙，与直观的类别判别特征一致。
与 $z$-规则和显著性图相比，$w^+$ 和 $a^+$ 规则在噪声增加时解释质量的退化显著更小。
$a^+$ 规则聚焦于与类别相关的关键可变方向，使其在噪声环境中特别适合解释区分不同数字类别的特征。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。