Skip to main content
QUICK REVIEW

[论文解读] Smoothed Geometry for Robust Attribution

Zifan Wang, Haofan Wang|arXiv (Cornell University)|Jun 1, 2020
Adversarial Robustness in Machine Learning被引用 12
一句话总结

本文提出了一种正则化与随机平滑方法,通过在模型梯度上强制执行Lipschitz连续性,提升基于梯度的特征归因在深度神经网络中的鲁棒性,显著降低对产生相似输入不一致解释的对抗性扰动的脆弱性。实验表明,该方法在多种图像模型中均一致提升了归因鲁棒性。

ABSTRACT

Feature attributions are a popular tool for explaining the behavior of Deep Neural Networks (DNNs), but have recently been shown to be vulnerable to attacks that produce divergent explanations for nearby inputs. This lack of robustness is especially problematic in high-stakes applications where adversarially-manipulated explanations could impair safety and trustworthiness. Building on a geometric understanding of these attacks presented in recent work, we identify Lipschitz continuity conditions on models' gradient that lead to robust gradient-based attributions, and observe that smoothness may also be related to the ability of an attack to transfer across multiple attribution methods. To mitigate these attacks in practice, we propose an inexpensive regularization method that promotes these conditions in DNNs, as well as a stochastic smoothing technique that does not require re-training. Our experiments on a range of image models demonstrate that both of these mitigations consistently improve attribution robustness, and confirm the role that smooth geometry plays in these attacks on real, large-scale models.

研究动机与目标

  • 解决基于梯度的特征归因对产生相似输入不一致解释的对抗性扰动的脆弱性。
  • 识别确保归因方法鲁棒性的模型梯度上的Lipschitz连续性条件。
  • 开发实用且低成本的正则化与平滑技术,以在不重新训练的情况下强制实现平滑的模型几何结构。
  • 研究模型平滑性与不同归因方法间对抗性攻击可迁移性之间的关系。

提出的方法

  • 提出一种基于权重衰减的正则化方法,以促进深度神经网络梯度的Lipschitz连续性。
  • 引入一种随机平滑技术,通过在推理过程中添加输入噪声来平滑模型的输出与梯度行为。
  • 利用对抗性攻击的几何分析,将模型平滑性与归因鲁棒性联系起来。
  • 在不改变架构或重新训练的情况下,将所提方法应用于标准图像分类模型。
  • 通过小输入变化下的扰动归因稳定性来评估鲁棒性。

实验结果

研究问题

  • RQ1深度神经网络的何种几何特性可导致鲁棒的基于梯度的归因?
  • RQ2模型梯度中的Lipschitz连续性如何影响对抗性扰动下特征归因的稳定性?
  • RQ3平滑的模型几何是否可降低对抗性攻击在不同归因方法间的可迁移性?
  • RQ4正则化与随机平滑在实践中能在多大程度上提升归因鲁棒性?

主要发现

  • 所提出的正则化方法在多个图像模型中显著提升了归因鲁棒性,减少了小输入扰动下的解释分歧。
  • 随机平滑在无需重新训练或架构更改的情况下,提供了显著的鲁棒性提升。
  • 具有更平滑几何结构的模型在不同归因方法间表现出更低的对抗性攻击可迁移性。
  • 几何分析证实,梯度的Lipschitz连续性是实现鲁棒归因的关键因素。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。