Skip to main content
QUICK REVIEW

[论文解读] On the Robustness of the CVPR 2018 White-Box Adversarial Example Defenses

Anish Athalye, Nicholas Carlini|arXiv (Cornell University)|Apr 10, 2018
Adversarial Robustness in Machine Learning参考文献 7被引用 119
一句话总结

本文显示两种 CVPR 2018 防御方法(Pixel Deflection 和 High-Level Representation Guided Denoiser)在白盒攻击下失败,ImageNet 准确率降至 0%(扰动为 4/255)并实现了 97% 的定向成功率。

ABSTRACT

Neural networks are known to be vulnerable to adversarial examples. In this note, we evaluate the two white-box defenses that appeared at CVPR 2018 and find they are ineffective: when applying existing techniques, we can reduce the accuracy of the defended models to 0%.

研究动机与目标

  • 评估两种 CVPR 2018 白盒防御在强对抗攻击下的鲁棒性。
  • 确定 Pixel Deflection 和 HGR 在白盒威胁模型下是否有效。
  • 使用标准对抗攻击技术量化攻击成功率和鲁棒性。

提出的方法

  • 应用 BPDA 以处理不可微的像素偏转并评估其在白盒攻击下的鲁棒性。
  • 使用 PGD 构造未定向对抗样本,受限于 l_infinity = 4/255。
  • 在 ImageNet 上评估被防御的模型,以衡量攻击下的准确率和定向成功率。
  • 在攻击者知道防御的白盒威胁模型下分析防御。

实验结果

研究问题

  • RQ1在白盒对抗攻击下,Pixel Deflection 和 HGR 是否鲁棒?
  • RQ2标准白盒攻击能否将被防御模型在 ImageNet 上的准确率降至接近零?
  • RQ3在小扰动上限下,对这些防御的定向攻击成功率是多少?

主要发现

  • 在白盒 BPDA 攻击下,被防御模型的 Pixel Deflection 防御准确率降至 0%,定向成功率 ~97%。
  • 在白盒 PGD 端到端下,HGR 防御实现 0% 准确率和 100% 定向攻击成功率。
  • 在白盒威胁模型中,这两种防御都对对抗样本不鲁棒。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。