Skip to main content
QUICK REVIEW

[论文解读] A Direct Approach to Robust Deep Learning Using Adversarial Networks

Huaxia Wang, Chun-Nam Yu|arXiv (Cornell University)|May 23, 2019
Adversarial Robustness in Machine Learning参考文献 34被引用 48
一句话总结

本文提出了一种基于生成对抗网络(GAN)框架的新型鲁棒深度学习防御方法,其中生成网络用于建模对抗性噪声,而判别分类器则在极小极大博弈中进行训练。该方法在对抗黑盒攻击方面达到了最先进性能,与集成对抗训练和投影梯度下降方法相当或更优。

ABSTRACT

Deep neural networks have been shown to perform well in many classical machine learning problems, especially in image classification tasks. However, researchers have found that neural networks can be easily fooled, and they are surprisingly sensitive to small perturbations imperceptible to humans. Carefully crafted input images (adversarial examples) can force a well-trained neural network to provide arbitrary outputs. Including adversarial examples during training is a popular defense mechanism against adversarial attacks. In this paper we propose a new defensive mechanism under the generative adversarial network (GAN) framework. We model the adversarial noise using a generative network, trained jointly with a classification discriminative network as a minimax game. We show empirically that our adversarial network approach works well against black box attacks, with performance on par with state-of-art methods such as ensemble adversarial training and adversarial training with projected gradient descent.

研究动机与目标

  • 解决深度神经网络对微小、难以察觉的对抗性扰动的脆弱性问题。
  • 开发一种在对抗者无法访问模型架构或梯度信息的黑盒攻击场景下具有良好泛化能力的防御机制。
  • 在不依赖于预定义扰动的对抗性微调的前提下,提升模型鲁棒性。
  • 探索在训练过程中利用生成建模技术合成对抗性噪声,以增强模型鲁棒性。
  • 实现与最先进防御方法(如集成对抗训练和基于PGD的训练)相当的性能。

提出的方法

  • 训练一个生成网络以建模对抗性噪声模式,模拟真实扰动。
  • 分类网络充当判别器,学习在存在对抗性噪声时仍能正确分类输入。
  • 两个网络以极小极大博弈方式联合训练,类似于标准GAN,但重点在于鲁棒分类。
  • 生成网络学习生成可欺骗分类器的扰动,而分类器则学习抵抗这些扰动。
  • 训练过程端到端进行,对抗样本由生成器在优化过程中实时生成。
  • 该框架通过动态生成的对抗样本实现数据增强,从而提升对未见攻击的泛化能力。

实验结果

研究问题

  • RQ1生成对抗框架能否有效建模并防御深度神经网络中的对抗性扰动?
  • RQ2所提出的基于GAN的防御方法在性能上与集成对抗训练和基于PGD的训练等成熟方法相比如何?
  • RQ3该方法在对抗者无模型访问权限的黑盒攻击场景下是否具有良好的泛化能力?
  • RQ4生成网络能否学习生成真实有效的对抗性噪声,从而有效挑战分类器?
  • RQ5所提出的防御机制在鲁棒性与标准准确率之间存在何种权衡?

主要发现

  • 所提出的基于GAN的防御方法在性能上与最先进方法(如集成对抗训练和基于投影梯度下降的对抗训练)相当。
  • 该方法在对抗黑盒攻击方面表现出强鲁棒性,表明其对未见攻击策略具有良好的泛化能力。
  • 在极小极大框架下联合训练生成器与判别器,成功提升了模型鲁棒性,且无需在训练过程中显式使用对抗样本。
  • 该方法有效学习了对抗性噪声的建模模式,使分类器能够泛化到多种类型的扰动。
  • 该方法在显著提升鲁棒性的同时保持了具有竞争力的标准准确率,表明鲁棒性与准确率之间存在有利权衡。
  • 实证结果证实,该模型对通常会使标准模型失效的微小、难以察觉的扰动具有鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。