[论文解读] Explanations can be manipulated and geometry is to blame
本论文认为,由常见归因方法产生的解释可能被操控,并将此漏洞归因于模型和输入的几何特性。
Explanation methods aim to make neural networks more trustworthy and interpretable. In this paper, we demonstrate a property of explanation methods which is disconcerting for both of these purposes. Namely, we show that explanations can be manipulated arbitrarily by applying visually hardly perceptible perturbations to the input that keep the network's output approximately constant. We establish theoretically that this phenomenon can be related to certain geometrical properties of neural networks. This allows us to derive an upper bound on the susceptibility of explanations to manipulations. Based on this result, we propose effective mechanisms to enhance the robustness of explanations.
研究动机与目标
- 激发并分析解释方法对操纵的易感性。
- 考察模型和输入空间的几何性质如何促成解释的脆弱性。
- 调查若干标准解释方法,并在操纵情境下讨论它们的局限性。
提出的方法
- 描述基于梯度的归因方法,如 Gradient、Gradient × Input 和 Integrated Gradients。
- 讨论基于反向传播的解释,包括 Guided Backpropagation 和 Layer-wise Relevance Propagation。
- 强调输入空间的几何性质和模型决策边界如何影响解释行为。
实验结果
研究问题
- RQ1常见的解释方法是否会被对抗性输入操纵或误导?
- RQ2模型和输入空间的几何在解释可靠性中扮演怎样的角色?
- RQ3流行的归因技术是否具有使操纵成为可能的固有脆弱性?
- RQ4不同归因方法在易受操纵方面的比较如何?
主要发现
- 归因方法产生的解释可能对操纵敏感。
- 几何在跨方法的解释脆弱性中起核心作用。
- 在它们的弱点背景下讨论了若干标准归因技术(例如 Gradient、Gradient × Input、Integrated Gradients、GBP、LRP)。
- 本文分析像素扰动如何影响得到的解释。
- 研究将反向传播和相关传播的数学性质与可解释性弱点联系起来。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。