Skip to main content
QUICK REVIEW

[论文解读] Bridging Adversarial Robustness and Gradient Interpretability

Beomsu Kim, Junghoon Seo|arXiv (Cornell University)|Mar 27, 2019
Adversarial Robustness in Machine Learning参考文献 29被引用 26
一句话总结

本文通过证明对抗训练使损失梯度更贴近图像流形,从而弥合了对抗鲁棒性与梯度可解释性之间的鸿沟,提升了其与人类感知的一致性及定量上的意义。本文识别出测试准确率与梯度可解释性之间的权衡,并提出了改进的归因方法和训练范数以解决该问题。

ABSTRACT

Adversarial training is a training scheme designed to counter adversarial attacks by augmenting the training dataset with adversarial examples. Surprisingly, several studies have observed that loss gradients from adversarially trained DNNs are visually more interpretable than those from standard DNNs. Although this phenomenon is interesting, there are only few works that have offered an explanation. In this paper, we attempted to bridge this gap between adversarial robustness and gradient interpretability. To this end, we identified that loss gradients from adversarially trained DNNs align better with human perception because adversarial training restricts gradients closer to the image manifold. We then demonstrated that adversarial training causes loss gradients to be quantitatively meaningful. Finally, we showed that under the adversarial training framework, there exists an empirical trade-off between test accuracy and loss gradient interpretability and proposed two potential approaches to resolving this trade-off.

研究动机与目标

  • 解释为何对抗训练得到的深度神经网络损失梯度比标准深度神经网络的梯度更具视觉可解释性。
  • 研究对抗训练是否会产生真正反映内部表征的定量上有意义的梯度。
  • 识别并解决对抗训练下测试准确率与梯度可解释性之间的经验性权衡。
  • 提出改进梯度可解释性的方法,同时不牺牲模型准确率。

提出的方法

  • 使用基于PGD的攻击,在ℓ₂和ℓ∞约束下生成对抗样本用于对抗训练。
  • 通过可视化和小规模数据集实验,检验对抗训练将梯度限制在图像流形上的假设。
  • 建立一个正式框架,利用归因方法评估指标来量化梯度反映内部表征的准确性。
  • 在CIFAR-10、MNIST和FMNIST上,使用全局(GX)和局部(G)归因方法评估梯度可解释性。
  • 在不同对抗训练设置(范数、目标)下分析测试准确率与可解释性之间的权衡。
  • 提出两种解决方案:将对抗训练与先进的全局归因方法结合,以及优化ℓ∞-基于的训练以提升可解释性。

实验结果

研究问题

  • RQ1为何对抗训练网络的损失梯度与人类感知更一致?
  • RQ2用于训练的对抗攻击强度与梯度感知质量之间是否存在相关性?
  • RQ3对抗训练是否真正提升了损失梯度作为内部DNN行为表征的定量意义?
  • RQ4在对抗训练下,测试准确率与梯度可解释性之间是否存在权衡?
  • RQ5是否可通过替代归因方法或训练配置缓解该权衡?

主要发现

  • 对抗训练网络的损失梯度与人类感知更一致,因为对抗训练使梯度更贴近图像流形。
  • 对抗训练产生具有定量意义的梯度,其与内部表征的对齐性已通过正式框架得到验证。
  • 测试准确率与梯度可解释性之间存在近乎单调的权衡,更强的攻击使梯度更可解释,但以牺牲准确率为代价。
  • 全局归因方法(如g_GX)在可解释性上优于局部方法(如g_G),表明将其与对抗训练结合可提升可解释性。
  • 在KAR目标中,ℓ∞-基于训练在可解释性提升方面表现更优,而在ROAR中ℓ₂-基于训练更具鲁棒性,表明不同范数下性能表现存在差异。
  • 结果表明,将对抗训练与先进的全局归因方法结合,或优化ℓ∞-训练,有助于缓解准确率-可解释性权衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。