Skip to main content
QUICK REVIEW

[论文解读] On the Connection Between Adversarial Robustness and Saliency Map Interpretability

Christian Etmann, Sebastian Lunz|arXiv (Cornell University)|May 10, 2019
Adversarial Robustness in Machine Learning参考文献 26被引用 74
一句话总结

本文分析对抗性鲁棒性与显著性图解释性之间的关系,形式化输入与显著性的一致性,并显示这一联系在更线性的模型中更强。

ABSTRACT

Recent studies on the adversarial vulnerability of neural networks have shown that models trained to be more robust to adversarial attacks exhibit more interpretable saliency maps than their non-robust counterparts. We aim to quantify this behavior by considering the alignment between input image and saliency map. We hypothesize that as the distance to the decision boundary grows,so does the alignment. This connection is strictly true in the case of linear models. We confirm these theoretical findings with experiments based on models trained with a local Lipschitz regularization and identify where the non-linear nature of neural networks weakens the relation.

研究动机与目标

  • 动机并量化观察到的对抗性鲁棒性与显著性图解释性之间的联系。
  • 定义输入图像与显著性图之间的一致性,并研究其与鲁棒性的关系。
  • 在线性模型中形式化地连接鲁棒性与对齐,并将洞见扩展到非线性网络。
  • 研究局部仿射(基于 ReLU)网络在鲁棒性正则化下的行为及其对解释性的影响。
  • 在 MNIST 和 ImageNet 上使用对抗性鲁棒模型对理论进行实证验证。

提出的方法

  • 将对抗性鲁棒性定义为改变分类器决策的最近扰动的距离。
  • 引入对齐度 alpha(x) = |<x, ∇Ψ(x)>| / ||∇Ψ(x)|| 并分析其与鲁棒性的关系。
  • 为局部仿射评分函数推导线性化鲁棒性,并建立与二值化显著性地图的联系。
  • 提出神经网络的同质分解,以分离线性和非线性部分。
  • 给出将鲁棒性与对齐联系起来的逐点界,包括针对多类网络的定理 2 与定理 3。
  • 在 MNIST 和 ImageNet 上使用双重反向传播训练网络以惩罚梯度范数,并通过正则化调节鲁棒性。

实验结果

研究问题

  • RQ1提高对抗性鲁棒性是否会导致输入图像与显著性图之间的对齐度提升?
  • RQ2线性、同质模型与非线性神经网络之间的鲁棒性-对齐关系有何不同?
  • RQ3线性化鲁棒性的界限如何解释鲁棒模型中显著性图的可解释性?
  • RQ4局部常数项和 logits 中的线性项在鲁棒性-对齐关系中起到什么作用?
  • RQ5在鲁棒性、对齐与可解释性模式方面,MNIST 与 ImageNet 的结果有何比较?

主要发现

  • 鲁棒模型往往产生更具可解释性的显著性图,并且输入与显著性之间的对齐更强。
  • 对于线性或正一同态评分函数,鲁棒性与二值化对齐是一致的。
  • 在非线性网络中,对齐随鲁棒性在平均水平上增加,但关系较弱且受数据影响。
  • 实验表明在 ImageNet 和 MNIST 上,中位数对齐随中位数鲁棒性增长,呈现不同的饱和行为。
  • 线性化鲁棒性提供对实际鲁棒性的现实估计,与逐点测量相关性很高。
  • 上界(定理 2 与定理 3)解释了线性分量如何支配对齐-鲁棒性之间的联系,尤其是在模型变得更线性时。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。