QUICK REVIEW

[论文解读] On the Robustness of the CVPR 2018 White-Box Adversarial Example Defenses

Anish Athalye, Nicholas Carlini|arXiv (Cornell University)|Apr 10, 2018

Adversarial Robustness in Machine Learning参考文献 7被引用 119

一句话总结

本文显示两种 CVPR 2018 防御方法（Pixel Deflection 和 High-Level Representation Guided Denoiser）在白盒攻击下失败，ImageNet 准确率降至 0%（扰动为 4/255）并实现了 97% 的定向成功率。

ABSTRACT

Neural networks are known to be vulnerable to adversarial examples. In this note, we evaluate the two white-box defenses that appeared at CVPR 2018 and find they are ineffective: when applying existing techniques, we can reduce the accuracy of the defended models to 0%.

研究动机与目标

评估两种 CVPR 2018 白盒防御在强对抗攻击下的鲁棒性。
确定 Pixel Deflection 和 HGR 在白盒威胁模型下是否有效。
使用标准对抗攻击技术量化攻击成功率和鲁棒性。

提出的方法

应用 BPDA 以处理不可微的像素偏转并评估其在白盒攻击下的鲁棒性。
使用 PGD 构造未定向对抗样本，受限于 l_infinity = 4/255。
在 ImageNet 上评估被防御的模型，以衡量攻击下的准确率和定向成功率。
在攻击者知道防御的白盒威胁模型下分析防御。

实验结果

研究问题

RQ1在白盒对抗攻击下，Pixel Deflection 和 HGR 是否鲁棒？
RQ2标准白盒攻击能否将被防御模型在 ImageNet 上的准确率降至接近零？
RQ3在小扰动上限下，对这些防御的定向攻击成功率是多少？

主要发现

在白盒 BPDA 攻击下，被防御模型的 Pixel Deflection 防御准确率降至 0%，定向成功率 ~97%。
在白盒 PGD 端到端下，HGR 防御实现 0% 准确率和 100% 定向攻击成功率。
在白盒威胁模型中，这两种防御都对对抗样本不鲁棒。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。