[论文解读] The Robust Manifold Defense: Adversarial Training using Generative Models
论文提出了一种利用跨越器(GAN/VAEs)的潜在空间过强攻击,通过在潜在空间接近但产生不同分类器输出的对来绕过 DefenseGAN,并通过一个新的最小-最大对抗训练框架提升 MNIST 的鲁棒性。
We propose a new type of attack for finding adversarial examples for image classifiers. Our method exploits spanners, i.e. deep neural networks whose input space is low-dimensional and whose output range approximates the set of images of interest. Spanners may be generators of GANs or decoders of VAEs. The key idea in our attack is to search over latent code pairs to find ones that generate nearby images with different classifier outputs. We argue that our attack is stronger than searching over perturbations of real images. Moreover, we show that our stronger attack can be used to reduce the accuracy of Defense-GAN to 3\%, resolving an open problem from the well-known paper by Athalye et al. We combine our attack with normal adversarial training to obtain the most robust known MNIST classifier, significantly improving the state of the art against PGD attacks. Our formulation involves solving a min-max problem, where the min player sets the parameters of the classifier and the max player is running our attack, and is thus searching for adversarial examples in the {\em low-dimensional} input space of the spanner. All code and models are available at \url{https://github.com/ajiljalal/manifold-defense.git}
研究动机与目标
- 通过利用近似真实数据分布的低维潜在空间(spanners)来激发更强的对抗攻击。
- 提出一种过强攻击,搜索潜在向量对以最大化输出差异,同时保持潜在距离较小。
- 演示将该攻击与对抗训练相结合如何在 MNIST 上实现最先进的鲁棒性。
- 展示该方法能够完全绕过 DefenseGAN,并且可用于提升对抗防御。
提出的方法
- 定义一个跨越器 G: R^k -> R^n,其取值范围近似数据流形。
- 将过强攻击表述为对潜在码 z, z' 的最大-最小问题,约束条件为 ||G(z) - G(z')||_2^2 <= (2η+ε)^2。
- 将过强攻击整合到一个鲁棒的最小-最大目标中,平衡分类器准确性和攻击强度(inf_θ μ(sup_{z,z'} L(Cθ(G(z)), Cθ(G(z')))) + (1-μ) training loss)。
- 利用该攻击通过证明潜在空间攻击能够产生近似真实图像的对,从而误导分类器,以绕过 DefenseGAN。
- 在 MNIST 和 CelebA 数据集上应用带有过强攻击的对抗训练,提升对白盒 ℓ2 边界扰动的鲁棒性。
- 给出与 Madry 等人和 TRADES 的对比实验结果。
实验结果
研究问题
- RQ1在生成跨越器范围内的潜在空间过强攻击能否产生比传统扰动更强的对抗样本?
- RQ2将此类潜在空间攻击整合到对抗训练中是否能在 MNIST 和 CelebA 上实现比现有方法(如 Madry、TRADES)更强的鲁棒性?
- RQ3潜在空间攻击在多大程度上能够绕过依赖将输入投射到跨越器上的防御(如 DefenseGAN、INC)?
- RQ4将攻击搜索空间约束为低维流形是否提高对抗训练中鲁棒优化的有效性和可处理性?
主要发现
- 该潜在空间的过强攻击显著降低了 DefenseGAN 的效果(在给定设定下准确率降至约 3%)。
- 将过强攻击与对抗训练结合,提升 MNIST 对白盒 PGD 攻击的鲁棒性,在某些设定下实现高达 96.26% 的对抗准确率。
- 该方法在 MNIST 上针对 ℓ2 半径为 1.5 的扰动相比基线 TRADES 提高鲁棒性,达到 96.26% 对比 91.88%。
- 在 MNIST 的 δ 最多达到 2.5 时,该方法保持较高鲁棒性(约 95%+),而某些基线方法性能下降。
- 潜在空间攻击能够训练出在决策边界附近表现出自然不确定性的鲁棒分类器,在 MNIST 和 CelebA 上得到验证。
- 该方法也比先前方法更有效地干扰 DefenseGAN,表明对基于跨越器的防御具有更广泛的影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。