Skip to main content
QUICK REVIEW

[论文解读] Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

Anish Athalye, Nicholas Carlini|arXiv (Cornell University)|Feb 1, 2018
Adversarial Robustness in Machine Learning被引用 1,189
一句话总结

该论文将混淆梯度定义为梯度掩蔽,并开发了绕过依赖于它的防御的攻击,证明了许多 ICLR 2018 非认证防御是脆弱的。

ABSTRACT

We identify obfuscated gradients, a kind of gradient masking, as a phenomenon that leads to a false sense of security in defenses against adversarial examples. While defenses that cause obfuscated gradients appear to defeat iterative optimization-based attacks, we find defenses relying on this effect can be circumvented. We describe characteristic behaviors of defenses exhibiting the effect, and for each of the three types of obfuscated gradients we discover, we develop attack techniques to overcome it. In a case study, examining non-certified white-box-secure defenses at ICLR 2018, we find obfuscated gradients are a common occurrence, with 7 of 9 defenses relying on obfuscated gradients. Our new attacks successfully circumvent 6 completely, and 1 partially, in the original threat model each paper considers.

研究动机与目标

  • 将混淆梯度识别为一种梯度掩蔽形式,错误地暗示对对抗样本的鲁棒性。
  • 描述三种类型的混淆梯度,并开发针对每种类型的攻击以克服它们。
  • 评估 ICLR 2018 非认证防御中混淆梯度的普遍性并演示绕过。
  • 为研究人员提供可重复的基线和攻击实现,以评估防御。
  • 就评估防御并避免常见评估陷阱提供指南。

提出的方法

  • 定义混淆梯度及三种类型:碎片化的、随机的,以及消失/爆炸梯度。
  • 开发攻击:对不可微组件使用 BPDA;对随机防御使用 Transformation 上的期望(EOT);通过重参数化来处理梯度问题。
  • 使用 BPDA、EOT 和重参数化来攻击防御并演示绕过。
  • 对 ICLR 2018 非认证防御进行案例研究,以评估对混淆梯度的依赖。
  • 发布防御和攻击的重新实现以实现可重复性。

实验结果

研究问题

  • RQ1声称具备白盒鲁棒性的防御是否依赖于混淆梯度?
  • RQ2是否可以设计攻击来克服跨不同防御类型的梯度掩蔽?
  • RQ3在实际防御中混淆梯度的普遍程度如何,如 ICLR 2018 的防御?
  • RQ4在原始威胁模型下,所提出的攻击可以完全绕过还是部分绕过这些防御?

主要发现

防御数据集距离准确率
Buckman et al. (2018)CIFAR0.031 (L_infty)0%*
Ma et al. (2018)CIFAR0.031 (L_infty)5%
Guo et al. (2018)ImageNet0.005 (L_2)0%*
Dhillon et al. (2018)CIFAR0.031 (L_infty)0%
Xie et al. (2018)ImageNet0.031 (L_infty)0%*
Song et al. (2018)CIFAR0.031 (L_infty)9%*
Samangouei et al. (2018)MNIST0.005 (L_2)55%**
Madry et al. (2018)CIFAR0.031 (L_infty)47%
Na et al. (2018)CIFAR0.015 (L_infty)15%
  • 九个 ICLR 2018 非认证防御中有七个依赖混淆梯度。
  • 在原始威胁模型下,我们的攻击完全绕过六个防御,部分绕过一个。
  • BPDA、EOT 和重参数化有效处理碎片化、随机和消失/爆炸梯度。
  • 输入变换、温度计编码、随机激活裁剪以及基于 PixelCNN 的净化易受我们的攻击。
  • 结合对抗训练的防御并不能保证对我们的自适应攻击免疫。
  • 该工作为评估防御提供基线,并强调常见的评估陷阱。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。