[论文解读] Cascade Adversarial Machine Learning Regularized with a Unified Embedding
本文提出级联对抗训练,使用来自受防御网络迭代生成的对抗图像,并结合低级别嵌入相似性正则化,以提高对未知迭代攻击和黑盒情境的鲁棒性,但代价是对清洁准确率有一定损失。
Injecting adversarial examples during training, known as adversarial training, can improve robustness against one-step attacks, but not for unknown iterative attacks. To address this challenge, we first show iteratively generated adversarial images easily transfer between networks trained with the same strategy. Inspired by this observation, we propose cascade adversarial training, which transfers the knowledge of the end results of adversarial training. We train a network from scratch by injecting iteratively generated adversarial images crafted from already defended networks in addition to one-step adversarial images from the network being trained. We also propose to utilize embedding space for both classification and low-level (pixel-level) similarity learning to ignore unknown pixel level perturbation. During training, we inject adversarial images without replacing their corresponding clean images and penalize the distance between the two embeddings (clean and adversarial). Experimental results show that cascade adversarial training together with our proposed low-level similarity learning efficiently enhances the robustness against iterative attacks, but at the expense of decreased robustness against one-step attacks. We show that combining those two techniques can also improve robustness under the worst case black box attack scenario.
研究动机与目标
- 激发对超越单步攻击的未知迭代对手的鲁棒性差距的研究。
- 提出级联对抗训练,将来自受防御网络的对抗训练的最终结果进行转移。
- 引入低级别嵌入正则化,以在训练时忽略像素级扰动。
- 使用 ResNet 架构,在 MNIST 和 CIFAR-10 上评估该方法。
- 分析转移性、嵌入空间,以及在白盒和黑盒攻击下的鲁棒性。
提出的方法
- 展示采用相同策略训练的网络之间迭代生成的对抗图像的可转移性。
- 开发级联对抗训练:将来自已防御网络的 iter_FGSM 图像与正在训练的网络的一步对抗图像一起注入。
- 引入低级别相似性学习,在小批量中包含清洁图像,并惩罚清洁与对抗嵌入之间的距离(L_dist)。
- 探索两种嵌入正则化变体:双向损失和枢轴损失。
- 将总损失定义为对清洁/对抗图像的标准分类损失与嵌入距离损失的组合,超参数为 lambda 和 lambda2。
- 可视化嵌入空间,以显示清洁与对抗嵌入之间的发散减少,并研究 lambda2 对性能的影响。
- 使用 ResNet 主干在 MNIST 和 CIFAR-10 上进行评估,并分析白盒和黑盒攻击情景。
实验结果
研究问题
- RQ1在同一策略训练的网络之间,迭代生成的对抗样本有多可转移?
- RQ2级联对抗训练能否在不过度牺牲清洁准确率的情况下提高对迭代对抗攻击的鲁棒性?
- RQ3基于嵌入的正则化(低级相似性)是否增强对像素级扰动的鲁棒性?
- RQ4在 MNIST 和 CIFAR-10 上,该方法在白盒与黑盒攻击设置下的表现如何?
- RQ5将级联训练与嵌入正则化结合时,对迭代攻击的鲁棒性与清洁数据准确率之间的权衡是什么?
主要发现
- 使用来自受防御网络的 iter_FGSM 的级联对抗训练提升对未知迭代攻击的鲁棒性,但可能降低对一步攻击的鲁棒性。
- 低级别相似性学习使嵌入正则化,使小的输入扰动产生更接近的高层表示,从而在如 MNIST 这类简单数据集上提升鲁棒性。
- 枢轴损失和双向嵌入损失有效地对对抗扰动进行正则化,枢轴损失在降低嵌入发散方面尤为有用。
- 与级联/集成训练结合时,在黑盒攻击下的最坏情况鲁棒性优于单一方法的对抗训练。
- 存在权衡:提高对迭代攻击的鲁棒性可能以清洁图像准确率为代价,且效果取决于数据集与架构;建议对级联/源网络使用相同的初始化以最大化转移收益。
- 与低级别相似性学习结合的集成与级联策略,在 CIFAR-10 上对迭代白盒和黑盒攻击的鲁棒性有所提升,尽管在尽量保持清洁准确率方面仍存在挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。