Skip to main content
QUICK REVIEW

[论文解读] Interpreting Adversarially Trained Convolutional Neural Networks

Tianyuan Zhang, Zhanxing Zhu|ePrints Soton (University of Southampton)|May 23, 2019
Adversarial Robustness in Machine Learning被引用 75
一句话总结

该论文系统性地解释了 AT-CNNs,表明它们发展出更偏向形状的表征,且相较于通常训练的 CNNs 对纹理的偏好更低,使用显著性图和专门设计的变换数据集。

ABSTRACT

We attempt to interpret how adversarially trained convolutional neural networks (AT-CNNs) recognize objects. We design systematic approaches to interpret AT-CNNs in both qualitative and quantitative ways and compare them with normally trained models. Surprisingly, we find that adversarial training alleviates the texture bias of standard CNNs when trained on object recognition tasks, and helps CNNs learn a more shape-biased representation. We validate our hypothesis from two aspects. First, we compare the salience maps of AT-CNNs and standard CNNs on clean images and images under different transformations. The comparison could visually show that the prediction of the two types of CNNs is sensitive to dramatically different types of features. Second, to achieve quantitative verification, we construct additional test datasets that destroy either textures or shapes, such as style-transferred version of clean data, saturated images and patch-shuffled ones, and then evaluate the classification accuracy of AT-CNNs and normal CNNs on these datasets. Our findings shed some light on why AT-CNNs are more robust than those normally trained ones and contribute to a better understanding of adversarial training over CNNs from an interpretation perspective.

研究动机与目标

  • 调查 AT-CNNs 学到什么以及为什么它们比通常训练的 CNNs 更鲁棒。
  • 使用定性显著性图在干净和变换后的图像上将 AT-CNNs 与标准 CNNs 进行比较。
  • 通过设计的测试数据集定量评估对纹理保留与形状保留的扭曲的敏感性。

提出的方法

  • 使用显著性图(Grad 和 SmoothGrad)来可视化 AT-CNNs 与标准 CNNs 在干净和变换图像上的特征敏感性。
  • 构建纹理和形状扭曲的测试集(风格化图像、饱和图像、拼块打乱的图像)以量化泛化差距。
  • 在三组数据集(CIFAR-10、Tiny ImageNet、Caltech-256)上,在各种对抗性训练(PGD 和 FGSM)及强度下评估模型。
  • 在对抗扰动下比较鲁棒性和准确性,并使用欠拟合基线来控制泛化。

实验结果

研究问题

  • RQ1与通常训练的 CNNs 相比,AT-CNNs 是否更多依赖形状信息而非纹理信息?
  • RQ2当纹理或形状被破坏而其他特征保持时,AT-CNNs 与标准 CNNs 的表现如何?
  • RQ3显著性图是否能揭示 AT-CNNs 与普通 CNNs 在特征敏感性方面的定性差异?
  • RQ4对抗性训练是否将模型的偏向转向更长程的结构,如形状或边缘?

主要发现

  • AT-CNNs 产生更稀疏、以轮廓为中心的显著性图,较标准 CNNs 更强调形状/边缘。
  • 在风格化(纹理改变)图像上,AT-CNNs 的准确性高于标准 CNNs,表明更强的形状偏置。
  • 在纹理/饱和度扭曲下,AT-CNNs 的性能下降较少,表明对局部纹理信息的依赖降低。
  • 拼块打乱(破坏形状/边缘)大幅降低 AT-CNNs 的置信度和准确性,而标准 CNNs 相对鲁棒,这表明 AT-CNNs 更依赖形状。
  • 在各数据集上,较高的对抗鲁棒性与对形状/边缘特征的更大敏感性以及对纹理依赖的减少相关。
  • 研究表明,对抗性训练带来的鲁棒性与学习长期的、基于形状的表征有关,而不是纹理线索。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。