Skip to main content
QUICK REVIEW

[论文解读] Defense-GAN: Protecting Classifiers Against Adversarial Attacks Using Generative Models

Pouya Samangouei, Maya Kabkab|arXiv (Cornell University)|May 17, 2018
Adversarial Robustness in Machine Learning被引用 593
一句话总结

Defense-GAN 使用 Wasserstein GAN 在分类前将输入投射到生成器的取值范围内,去噪对抗性扰动,并在不改变分类器的情况下防御白盒和黑盒攻击。

ABSTRACT

In recent years, deep neural network approaches have been widely adopted for machine learning tasks, including classification. However, they were shown to be vulnerable to adversarial perturbations: carefully crafted small perturbations can cause misclassification of legitimate images. We propose Defense-GAN, a new framework leveraging the expressive capability of generative models to defend deep neural networks against such attacks. Defense-GAN is trained to model the distribution of unperturbed images. At inference time, it finds a close output to a given image which does not contain the adversarial changes. This output is then fed to the classifier. Our proposed method can be used with any classification model and does not modify the classifier structure or training procedure. It can also be used as a defense against any attack as it does not assume knowledge of the process for generating the adversarial examples. We empirically show that Defense-GAN is consistently effective against different attack methods and improves on existing defense strategies. Our code has been made publicly available at https://github.com/kabkabm/defensegan

研究动机与目标

  • 激发/说明分类器在白盒和黑盒威胁模型下易受对抗性扰动的脆弱性。
  • 提出一种不修改分类器、对攻击模型无关的防御方法,通过将输入投射到 GAN 的生成范围来实现。
  • 在标准数据集上展示防御的鲁棒性并与现有防御方法进行比较。
  • 探讨基于 GAN 的重建如何在不同攻击策略下影响检测与鲁棒性。

提出的方法

  • 在合法数据上训练一个 Wasserstein GAN 来建模数据分布。
  • 推断时,通过梯度下降进行 L 步并进行 R 次随机重启来求解 min_z ||G(z) − x||^2,将 x 投射到生成器的取值范围。
  • 将重建输出 G(z*) 送入分类器,而不是原始输入。
  • 可选地在重建图像上训练分类器(Defense-GAN-Rec)或在原始图像上训练(Defense-GAN-Orig)。
  • 在黑盒和白盒设置下,将 Defense-GAN 与 MagNet 和对抗训练在 FGSM、RAND+FGSM 和 CW 攻击下进行比较。

实验结果

研究问题

  • RQ1Defense-GAN 能否在不修改目标分类器的情况下,对白盒和黑盒对抗性攻击提供鲁棒保护?
  • RQ2将输入投射到 GAN 生成器的取值范围是否能有效去噪对抗性扰动,同时保持合法图像质量?
  • RQ3防御者的超参数(GD 步数 L 和随机重启次数 R)如何影响鲁棒性和计算成本?
  • RQ4Defense-GAN 在不同数据集和攻击方法下相较于现有防御(如对抗训练、MagNet)的表现如何?
  • RQ5该防御是否能通过重建误差信号实现可靠的攻击检测?

主要发现

  • Defense-GAN 相较基线防御,在 MNIST 与 Fashion-MNIST 上对常见对抗攻击的鲁棒性表现稳定提升。
  • 防御在白盒与黑盒攻击设置下均有效,且不需要修改分类器结构。
  • 性能受 GD 迭代次数和随机重启次数影响,通常更大值提高鲁棒性,但增加推理时间。
  • 通过 GAN 重建实现的基于投影的去噪可使用重建误差指标检测对抗样本。
  • Defense-GAN 在某些强力白盒攻击(如 CW)上优于对抗训练,并对多样化攻击策略提供更广泛的防御。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。