Skip to main content
QUICK REVIEW

[论文解读] Intriguing Properties of Adversarial Examples

Ekin D. Cubuk, Barret Zoph|arXiv (Cornell University)|Nov 8, 2017
Adversarial Robustness in Machine Learning参考文献 19被引用 23
一句话总结

本文指出,对抗性样本主要源于神经网络预测中的固有不确定性,对抗性错误随扰动大小呈普遍幂律缩放,适用于多种模型和数据集。研究表明,这种行为源于logit差值的统计分布,并通过神经架构搜索发现了更具鲁棒性的模型,显著提升了干净样本和对抗样本的准确率。

ABSTRACT

It is becoming increasingly clear that many machine learning classifiers are vulnerable to adversarial examples. In attempting to explain the origin of adversarial examples, previous studies have typically focused on the fact that neural networks operate on high dimensional data, they overfit, or they are too linear. Here we argue that the origin of adversarial examples is primarily due to an inherent uncertainty that neural networks have about their predictions. We show that the functional form of this uncertainty is independent of architecture, dataset, and training protocol; and depends only on the statistics of the logit differences of the network, which do not change significantly during training. This leads to adversarial error having a universal scaling, as a power-law, with respect to the size of the adversarial perturbation. We show that this universality holds for a broad range of datasets (MNIST, CIFAR10, ImageNet, and random data), models (including state-of-the-art deep networks, linear models, adversarially trained networks, and networks trained on randomly shuffled labels), and attacks (FGSM, step l.l., PGD). Motivated by these results, we study the effects of reducing prediction entropy on adversarial robustness. Finally, we study the effect of network architectures on adversarial sensitivity. To do this, we use neural architecture search with reinforcement learning to find adversarially robust architectures on CIFAR10. Our resulting architecture is more robust to white \emph{and} black box attacks compared to previous attempts.

研究动机与目标

  • 理解在多种模型和数据集上对抗性样本的共同、普遍特性。
  • 探究对抗鲁棒性是否从根本上与模型架构和训练动态相关。
  • 探讨降低预测熵是否能提升对抗鲁棒性。
  • 利用基于强化学习的神经架构搜索(NAS)发现对抗鲁棒性更强的神经架构。
  • 评估对抗训练与架构搜索在提升对白盒和黑盒攻击鲁棒性方面的有效性。

提出的方法

  • 分析在多个数据集(MNIST、CIFAR10、ImageNet、随机数据)和模型(线性模型、CNN、ResNet、Inception、NASNet)上,对抗性错误随扰动大小ε的变化。
  • 推导对抗性错误的幂律缩放关系为Aε^B,其中FGSM和PGD攻击的B ≈ 0.9–1.3,而逐步l.l.攻击的B ≈ 1.8–2.5。
  • 将对抗性成功与最高和第二高logit之间差值的累积分布联系起来,该分布形式在不同模型和数据集中具有普遍性。
  • 使用基于强化学习的神经架构搜索(NAS)在CIFAR10上优化对抗鲁棒性,结合PGD攻击和干净数据进行训练。
  • 通过白盒和黑盒攻击(FGSM、逐步l.l.、PGD)在ε = 8时评估鲁棒性,与基线模型及先前工作(如Madry et al., 2017)进行比较。
  • 测量在9,360个子模型中,干净准确率、参数数量与对抗准确率之间的相关性,以识别鲁棒性预测因子。

实验结果

研究问题

  • RQ1在不同模型、数据集和攻击类型之间,是否存在对抗性错误的普遍缩放定律?
  • RQ2神经网络的何种底层统计特性解释了对抗行为中观察到的普遍性?
  • RQ3降低预测熵如何影响对抗鲁棒性?
  • RQ4神经架构搜索能否发现对白盒和黑盒攻击均更鲁棒的模型?
  • RQ5干净准确率与对抗鲁棒性之间的相关性有多大?鲁棒性是否可以独立于模型规模实现?

主要发现

  • 对抗性错误随扰动大小ε呈幂律缩放,FGSM和PGD攻击的指数B ≈ 0.9–1.3,逐步l.l.攻击的B ≈ 1.8–2.5,该规律在所有研究的数据集和模型中均成立。
  • 幂律缩放具有普遍性,即使在标签随机打乱的模型上也持续存在,表明其并非源于数据结构或泛化能力。
  • 对抗性敏感度的功能形式由最高与第二高logit之间差值的累积分布决定,该分布形式在不同模型和数据集中具有普遍性。
  • 通过对抗性NAS发现的最佳架构在ε=8时实现了93.2%的干净准确率和75.0%的PGD攻击对抗准确率,优于Madry et al. (2017),在干净准确率上高出5.9%,黑盒鲁棒性也更优。
  • 对抗准确率与干净准确率强相关(r ≈ 0.8),但仅靠高干净准确率无法确保鲁棒性,因为对抗准确率的方差仍较高(对于干净准确率>85%的模型,σ ≈ 2.6%)。
  • 使用单步对抗样本进行训练对小ε攻击(ε < 0.2)防护效果有限,但能有效防御大ε攻击,表明小扰动与大扰动存在不同的作用机制。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。