[论文解读] Interpretation of Neural Networks is Fragile
本文表明神经网络的解释(显著性图和基于示例的解释)在不改变预测标签的前提下,通过微小、在感知上不可区分的输入扰动也会被显著改变,且这一现象在多种解释方法和数据集上成立。
In order for machine learning to be deployed and trusted in many applications, it is crucial to be able to reliably explain why the machine learning algorithm makes certain predictions. For example, if an algorithm classifies a given pathology image to be a malignant tumor, then the doctor may need to know which parts of the image led the algorithm to this classification. How to interpret black-box predictors is thus an important and active area of research. A fundamental question is: how much can we trust the interpretation itself? In this paper, we show that interpretation of deep learning predictions is extremely fragile in the following sense: two perceptively indistinguishable inputs with the same predicted label can be assigned very different interpretations. We systematically characterize the fragility of several widely-used feature-importance interpretation methods (saliency maps, relevance propagation, and DeepLIFT) on ImageNet and CIFAR-10. Our experiments show that even small random perturbation can change the feature importance and new systematic perturbations can lead to dramatically different interpretations without changing the label. We extend these results to show that interpretations based on exemplars (e.g. influence functions) are similarly fragile. Our analysis of the geometry of the Hessian matrix gives insight on why fragility could be a fundamental challenge to the current interpretation approaches.
研究动机与目标
- 建立对模型解释的信任并量化其鲁棒性。
- 引入在保持预测不变的前提下改变解释的对抗性扰动。
- 系统性评估 ImageNet 与 CIFAR-10 上特征重要性和基于示例的解释的鲁棒性。
- 提供理论与经验洞见,解释高维非线性模型中解释脆弱性产生的原因。
提出的方法
- 定义在固定预测下使解释之间的相异性最大化的对抗性扰动。
- 以三种策略(top-k、mass-center、targeted)和迭代优化过程对特征重要性方法(简单梯度、DeepLIFT、整合梯度)进行攻击。
- 利用梯度符号方法攻击影响函数(基于训练示例的解释)。
- 在 ImageNet(SqueezeNet)和 CIFAR-10(自定义 CNN)上评估攻击,并通过 top-1000 交集和 Spearman 顺序相关性评估鲁棒性。
- 使用基于 Hessian 的分析来解释为何高维和非线性促成解释脆弱性。
实验结果
研究问题
- RQ1是否存在对输入的微小扰动尽管不改变模型预测,但能显著改变像显著性图和影响函数这样的解释?
- RQ2哪些解释方法最容易受到对抗性扰动的影响?
- RQ3解释的鲁棒性如何与模型的海森矩阵几何相关?
- RQ4会不会使解释蒙骗的扰动在不同数据集(ImageNet、CIFAR-10)和架构之间具有泛化性?
主要发现
- 特征重要性图(梯度、DeepLIFT、整合梯度)在可感知不可区分的扰动下也能被驱动发生实质性改变,同时保持原标签。
- Top-k 和 mass-center 攻击在削弱前 1000 名交集和相关性方面对三种特征重要性方法都同样有效,优于随机符号扰动。
- 整合梯度相对比梯度或 DeepLIFT 对对抗性解释攻击更具抗干扰性。
- 影响函数解释也对扰动高度敏感,在梯度符号攻击下,最具影响力的训练样本会发生显著地变化。
- 攻击可以语义上重新定向解释(例如将显著性区域转向非显著区域或与语义无关的示例),而不改变预测。
- 基于 Hessian 的分析表明高维性和非线性是解释脆弱性的根源,且解释脆弱性与预测扰动之间存在正交性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。