Skip to main content
QUICK REVIEW

[论文解读] Harnessing the Vulnerability of Latent Layers in Adversarially Trained Models

Mayank Singh, Abhishek Sinha|arXiv (Cornell University)|May 13, 2019
Adversarial Robustness in Machine Learning参考文献 34被引用 23
一句话总结

本文指出,尽管输入层具有鲁棒性,对抗性训练模型中的潜在层对对抗攻击仍高度脆弱。本文提出潜在对抗性训练(LAT),一种通过对抗性训练中间特征层来提升鲁棒性的微调方法,在MNIST、CIFAR-10、CIFAR-100、SVHN和受限ImageNet上实现了最先进的对抗性准确率,对抗性准确率提升4–6%,测试准确率提升1%。

ABSTRACT

Neural networks are vulnerable to adversarial attacks -- small visually imperceptible crafted noise which when added to the input drastically changes the output. The most effective method of defending against these adversarial attacks is to use the methodology of adversarial training. We analyze the adversarially trained robust models to study their vulnerability against adversarial attacks at the level of the latent layers. Our analysis reveals that contrary to the input layer which is robust to adversarial attack, the latent layer of these robust models are highly susceptible to adversarial perturbations of small magnitude. Leveraging this information, we introduce a new technique Latent Adversarial Training (LAT) which comprises of fine-tuning the adversarially trained models to ensure the robustness at the feature layers. We also propose Latent Attack (LA), a novel algorithm for construction of adversarial examples. LAT results in minor improvement in test accuracy and leads to a state-of-the-art adversarial accuracy against the universal first-order adversarial PGD attack which is shown for the MNIST, CIFAR-10, CIFAR-100 datasets.

研究动机与目标

  • 探究对抗性训练的深度神经网络中潜在层的脆弱性。
  • 通过针对中间特征表示来提升最先进对抗性训练模型的鲁棒性。
  • 开发一种新型训练技术,在不牺牲测试准确率的前提下增强对抗鲁棒性。
  • 提出一种基于新型潜在层的对抗性攻击(LA),以利用子网络的脆弱性。

提出的方法

  • LAT通过在选定的潜在层 $g_i$ 上应用对抗性训练来微调对抗性训练模型,使用结合全网络 $f$ 和子网络 $g_i$ 的分类损失的加权损失。
  • 该方法使用超参数 $\omega$ 来平衡微调过程中全网络与潜在层的损失贡献。
  • 潜在攻击(LA)通过在特征表示上使用基于梯度的优化,针对最脆弱的潜在层构建 $l_\infty$-有界对抗性样本。
  • 该方法在白盒和黑盒攻击设置下评估鲁棒性,包括迁移攻击和带 bandit/SPSA 的攻击。
  • 实验包括对层深度、$\omega$ 和随机层选择的消融研究,以评估敏感性和泛化能力。
  • 在微调过程中使用PGD、FGSM和 $l_2$-有界PGD攻击评估LAT,以比较不同攻击类型下的鲁棒性增益。

实验结果

研究问题

  • RQ1尽管输入层具有鲁棒性,对抗性训练模型中的潜在层是否仍对小的对抗性扰动高度脆弱?
  • RQ2通过提升中间特征层的鲁棒性,能否显著增强深度神经网络的整体对抗鲁棒性?
  • RQ3潜在层深度和超参数 $\omega$ 的选择如何影响LAT微调过程的性能?
  • RQ4一种针对潜在层的新对抗性攻击是否能比标准攻击(如PGD)更有效地生成有效的对抗性样本?
  • RQ5LAT是否在白盒和黑盒攻击场景下(包括基于迁移的攻击)均能提升鲁棒性?

主要发现

  • 对抗性训练模型中的潜在层即使在输入层具有鲁棒性的情况下,对 $l_\infty$-有界对抗性扰动仍表现出高度脆弱性。
  • 与标准对抗性训练相比,LAT在CIFAR-10和CIFAR-100上将对抗性准确率提高了约4–6%,测试准确率提高了约1%。
  • 当在ResNet-18中微调 $g_{11}$ 层、$\omega = 0.2$ 且使用PGD进行对抗性训练时,性能最佳。
  • LAT训练的模型在黑盒攻击下表现出更高的鲁棒性,包括来自秘密模型的迁移攻击以及带 bandit/SPSA 的攻击,优于标准对抗性训练。
  • 潜在攻击(LA)的对抗攻击性能与PGD相当,表明潜在层的脆弱性可被有效利用。
  • 在训练过程中随机选择多个潜在层(如 $g_5$、$g_7$、$g_9$、$g_{11}$)可获得与固定层微调相当的性能,表明对层选择具有鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。