Skip to main content
QUICK REVIEW

[论文解读] MagNet and "Efficient Defenses Against Adversarial Attacks" are Not Robust to Adversarial Examples

Nicholas Carlini, David Wagner|arXiv (Cornell University)|Nov 22, 2017
Adversarial Robustness in Machine Learning参考文献 11被引用 140
一句话总结

本论文表明 MagNet、Efficient Defenses 和 APE-GAN 对对抗样本并不鲁棒;可迁移的攻击可以在对扰动增量很小的情况下击败这些防御。

ABSTRACT

MagNet and "Efficient Defenses..." were recently proposed as a defense to adversarial examples. We find that we can construct adversarial examples that defeat these defenses with only a slight increase in distortion.

研究动机与目标

  • 评估 MagNet、Efficient Defenses 与 APE-GAN 在 MNIST 与 CIFAR-10 上对对抗样本的鲁棒性。

提出的方法

  • 使用 Carlini and Wagner 的 L2 攻击对防御副本打造可迁移的对抗样例。
  • 训练多个本地自编码器作为检测器/再构器以模拟防御并实现转移攻击。
  • 结合分类器损失和检测器/再构器损失来计算对抗性目标以最大化转移性。
  • 在 MNIST 与 CIFAR-10 上评估定向攻击的成功率与 L2 扰动。
  • 通过比较重建前后的距离来分析为何 APE-GAN 不能有效去除对抗扰动。

实验结果

研究问题

  • RQ1MagNet、Efficient Defenses 与 APE-GAN 能否在 MNIST 与 CIFAR-10 上抵挡可迁移的对抗样本?
  • RQ2攻击者是否可以通过训练自己的防御副本来利用迁移性以击败受保护的模型?
  • RQ3针对这些防御,成功的定向对抗样例所需的扰动是多少?
  • RQ4为何 APE-GAN 的重建无法去除对抗扰动?

主要发现

数据集模型成功率扰动(L2)
MNISTUnsecured100%1.64
MNISTMagNet99%2.25
CIFARUnsecured100%0.30
CIFARMagNet100%0.45
  • MagNet 在灰箱攻击中的成功率约为 99%–100%,L2 扰动约为 2.25(MNIST)和 0.45(CIFAR)。
  • Efficient Defenses 对抗对抗攻击在扰动适中时达到 100% 的攻击成功率(MNIST 大致 2.04–2.66;CIFAR 大致 0.56–0.67)。
  • APE-GAN 也未能提供鲁棒防御,在 MNIST 与 CIFAR 上达到 100% 成功率,扰动约为 2.04–0.72。
  • 将对抗样本从防御的副本转移到实际受防护模型上可实现高攻击成功率,凸显薄弱的灰箱鲁棒性。
  • 三者的鲁棒性改进都很有限(对比未保护模型,平均扰动仅约增加 30% 左右)。
  • 重建后的对抗样本可能比攻击者的扰动更偏离原样,表明重建并不能可靠地中和对抗信号。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。