Skip to main content
QUICK REVIEW

[论文解读] Defense-GAN: Protecting Classifiers Against Adversarial Attacks Using Generative Models

Pouya Samangouei, Maya Kabkab|arXiv (Cornell University)|May 17, 2018
Adversarial Robustness in Machine Learning参考文献 20被引用 284
一句话总结

Defense-GAN 使用 Wasserstein GAN 在分类前将输入投射到生成器的取值范围,从而防御白盒和黑盒对抗攻击,同时不修改分类器。它在 MNIST 和 Fashion-MNIST 数据集上优于若干基线。

ABSTRACT

In recent years, deep neural network approaches have been widely adopted for machine learning tasks, including classification. However, they were shown to be vulnerable to adversarial perturbations: carefully crafted small perturbations can cause misclassification of legitimate images. We propose Defense-GAN, a new framework leveraging the expressive capability of generative models to defend deep neural networks against such attacks. Defense-GAN is trained to model the distribution of unperturbed images. At inference time, it finds a close output to a given image which does not contain the adversarial changes. This output is then fed to the classifier. Our proposed method can be used with any classification model and does not modify the classifier structure or training procedure. It can also be used as a defense against any attack as it does not assume knowledge of the process for generating the adversarial examples. We empirically show that Defense-GAN is consistently effective against different attack methods and improves on existing defense strategies. Our code has been made publicly available at https://github.com/kabkabm/defensegan

研究动机与目标

  • 为对抗可能误导深度网络的对抗性扰动提供鲁棒分类的动机。
  • 利用生成模型对未扰动数据的分布进行建模。
  • 提供不需要更改分类器或对攻击特定假设的防御。
  • 在基准数据集上展示对白盒和黑盒攻击的有效性。

提出的方法

  • 在正规训练数据上训练一个 Wasserstein GAN (WGAN) 来建模数据分布。
  • 在推理阶段,使用梯度下降并进行多次随机重启来求解 z,使 ||G(z) - x||^2 最小化(L 次迭代,R 次重启)。
  • 将重构图像 G(z*) 作为分类器的输入,而不是原始输入。
  • 不修改分类器的结构或训练过程;防御作为一个预处理步骤。
  • 可选择将分类器在重构图像上训练,以形成 Defense-GAN-Rec vs Defense-GAN-Orig。
  • 在白盒和黑盒设置下,对比对抗训练和 MagNet,攻击为 FGSM、RAND+FGSM、CW 攻击。

实验结果

研究问题

  • RQ1一个基于GAN的投射是否可以在不改变分类器的情况下对抗白盒和黑盒对抗攻击?
  • RQ2将输入投射到 GAN 的取值范围是否在保持干净数据准确度的同时降低对抗扰动?
  • RQ3Defense-GAN 相对于现有防御(对抗训练、MagNet)在常见攻击策略上的表现如何?
  • RQ4超参数 L(GD 步数)和 R(随机重启)对防御有效性和检测能力有何影响?

主要发现

  • 与基线相比,Defense-GAN 在 MNIST 和 Fashion-MNIST 上对常见对抗攻击的鲁棒性表现出一致提升。
  • 该防御不需要改变分类器,可与任意模型搭配使用。
  • 在白盒攻击下的鲁棒性仍然存在,包括 CW,即使攻击者知晓潜在代码的随机初始化。
  • Defense-GAN 通过重构误差(MSE)阈值实现潜在的攻击检测。
  • 增大 GD 迭代次数和随机重启数量通常提升检测性能和防御有效性,但会增加推理时间的权衡。
  • Defense-GAN 的变体(Defense-GAN-Rec 与 Defense-GAN-Orig)显示出相似的性能,表明在重构图像训练与原始图像训练上的鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。