QUICK REVIEW

[论文解读] Defending Against Adversarial Attacks by Leveraging an Entire GAN

Gokula Krishnan Santhanam, Paulina Grnarova|arXiv (Cornell University)|May 27, 2018

Adversarial Robustness in Machine Learning参考文献 10被引用 24

一句话总结

本文提出 Cowboy，一种基于 GAN 的防御方法，通过利用预训练 GAN 的生成器和判别器来检测并清理对抗性样本。该方法利用对抗性样本位于数据流形之外的事实，使用判别器检测对抗性样本，使用生成器将它们投影回流形，从而在不修改分类器的情况下，将最坏情况攻击下的分类准确率从 0.02% 提升至 0.81%。

ABSTRACT

Recent work has shown that state-of-the-art models are highly vulnerable to adversarial perturbations of the input. We propose cowboy, an approach to detecting and defending against adversarial attacks by using both the discriminator and generator of a GAN trained on the same dataset. We show that the discriminator consistently scores the adversarial samples lower than the real samples across multiple attacks and datasets. We provide empirical evidence that adversarial samples lie outside of the data manifold learned by the GAN. Based on this, we propose a cleaning method which uses both the discriminator and generator of the GAN to project the samples back onto the data manifold. This cleaning procedure is independent of the classifier and type of attack and thus can be deployed in existing systems.

研究动机与目标

解决深度神经网络对导致误分类的不可察觉对抗性扰动的脆弱性。
开发一种与目标分类器和攻击类型无关的防御机制，实现即插即用的部署。
通过实证验证对抗性样本位于 GAN 学习到的数据流形之外。
设计一种结合生成器和判别器的清理流程，将对抗性样本投影回数据流形。
在不重新训练或修改分类器的情况下，证明该方法在多个数据集和攻击方法上的泛化能力。

提出的方法

仅使用真实数据训练标准 GAN，训练过程中不引入对抗性样本。
使用训练好的判别器对输入样本进行打分，分数越低表示越可能是对抗性样本。
应用一种结合生成器重建和高判别器分数的清理目标，同时优化两者。
通过迭代优化，将对抗性输入逐步投影至数据流形，同时最大化判别器的置信度。
将清理后的样本作为预处理输入，送入原始分类器。
确保该方法独立于分类器的架构和训练过程。

实验结果

研究问题

RQ1对抗性样本是否位于仅用真实数据训练的 GAN 所学习到的数据流形之外？
RQ2GAN 的判别器能否在多种攻击和数据集上可靠地检测对抗性样本？
RQ3在清理目标中同时结合生成器和判别器，是否比仅使用生成器能带来更高的鲁棒性？
RQ4GAN 的质量如何影响检测和清理性能？
RQ5该防御能否作为即插即用的预处理步骤部署，而无需修改分类器？

主要发现

在所有测试的攻击和数据集中，判别器对对抗性样本的打分始终低于对真实样本的打分，证实其能够有效检测流形外输入。
在 SVHN 数据集上使用 FGSM 攻击时，经过 Cowboy 清理后，分类器准确率从 0.02% 提升至 0.81%，展现出显著的鲁棒性提升。
Cowboy 在所有数据集和攻击类型下均优于仅使用生成器的 Defense-GAN 方法，证明了引入判别器分数的附加价值。
即使 GAN 训练不佳，检测性能依然强劲，表明对 GAN 训练不稳定性具有鲁棒性。
随着 GAN 训练质量的提升，清理性能也随之改善，但检测能力在训练早期即表现良好，显示出实际可部署性。
该方法在多种攻击类型（包括 FGSM、BIM、PGDM、MIM 和 VAM）上均表现出泛化能力，无需针对攻击类型进行适应。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。