QUICK REVIEW
[论文解读] On the Robustness of the CVPR 2018 White-Box Adversarial Example Defenses
Anish Athalye, Nicholas Carlini|arXiv (Cornell University)|Apr 10, 2018
Adversarial Robustness in Machine Learning参考文献 7被引用 119
一句话总结
本文显示两种 CVPR 2018 防御方法(Pixel Deflection 和 High-Level Representation Guided Denoiser)在白盒攻击下失败,ImageNet 准确率降至 0%(扰动为 4/255)并实现了 97% 的定向成功率。
ABSTRACT
Neural networks are known to be vulnerable to adversarial examples. In this note, we evaluate the two white-box defenses that appeared at CVPR 2018 and find they are ineffective: when applying existing techniques, we can reduce the accuracy of the defended models to 0%.
研究动机与目标
- 评估两种 CVPR 2018 白盒防御在强对抗攻击下的鲁棒性。
- 确定 Pixel Deflection 和 HGR 在白盒威胁模型下是否有效。
- 使用标准对抗攻击技术量化攻击成功率和鲁棒性。
提出的方法
- 应用 BPDA 以处理不可微的像素偏转并评估其在白盒攻击下的鲁棒性。
- 使用 PGD 构造未定向对抗样本,受限于 l_infinity = 4/255。
- 在 ImageNet 上评估被防御的模型,以衡量攻击下的准确率和定向成功率。
- 在攻击者知道防御的白盒威胁模型下分析防御。
实验结果
研究问题
- RQ1在白盒对抗攻击下,Pixel Deflection 和 HGR 是否鲁棒?
- RQ2标准白盒攻击能否将被防御模型在 ImageNet 上的准确率降至接近零?
- RQ3在小扰动上限下,对这些防御的定向攻击成功率是多少?
主要发现
- 在白盒 BPDA 攻击下,被防御模型的 Pixel Deflection 防御准确率降至 0%,定向成功率 ~97%。
- 在白盒 PGD 端到端下,HGR 防御实现 0% 准确率和 100% 定向攻击成功率。
- 在白盒威胁模型中,这两种防御都对对抗样本不鲁棒。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。