Skip to main content
QUICK REVIEW

[论文解读] Generalizable Adversarial Attacks Using Generative Models.

Avishek Joey Bose, Andre Cianflone|arXiv (Cornell University)|May 26, 2019
Adversarial Robustness in Machine Learning参考文献 16被引用 5
一句话总结

该论文提出了一种与领域无关的框架,通过生成模型学习对抗扰动的分布,从而在图像、文本和图数据上实现多样化、可泛化的白盒攻击。该方法在图领域达到最先进性能,并展示了对未见过的测试样本的零样本攻击泛化能力。

ABSTRACT

Adversarial attacks on deep neural networks traditionally rely on a constrained optimization paradigm, where an optimization procedure is used to obtain a single adversarial perturbation for a given input example. In this work we frame the problem as learning a distribution of adversarial perturbations, enabling us to generate diverse adversarial distributions given an unperturbed input. We show that this framework is domain-agnostic in that the same framework can be employed to attack different input domains with minimal modification. Across three diverse domains---images, text, and graphs---our approach generates whitebox attacks with success rates that are competitive with or superior to existing approaches, with a new state-of-the-art achieved in the graph domain. Finally, we demonstrate that our framework can efficiently generate a diverse set of attacks for a single given input, and is even capable of attacking extit{unseen} test instances in a zero-shot manner, exhibiting attack generalization.

研究动机与目标

  • 为解决传统对抗攻击仅对每个输入生成单一扰动的局限性,通过学习多样化对抗扰动的分布来替代。
  • 开发一种与领域无关的框架,仅需极少修改即可攻击不同输入模态(如图像、文本和图)。
  • 实现零样本攻击泛化,使模型可在无需微调的情况下成功攻击未见过的测试样本。
  • 与现有方法相比,提升攻击成功率和多样性,特别是在图领域。

提出的方法

  • 将对抗攻击生成建模为使用条件生成模型的分布学习问题,其中生成器学习将干净输入映射到对抗扰动的分布。
  • 使用损失函数训练生成模型,以促使扰动能够欺骗目标分类器,同时在不同输入领域下保持不可察觉性或语义有效性。
  • 使用潜在空间先验(如高斯分布)正则化生成扰动的分布,从而实现从同一输入中采样多样化扰动。
  • 通过调整生成器和判别器架构以及损失组件,将框架适配到不同领域,以适用于图像、文本或图数据。
  • 通过利用学习到的分布对未见过的输入采样扰动,实现在无需微调情况下的零样本攻击泛化。
  • 采用黑盒评估协议,评估在多样化测试样本上的攻击成功率,包括训练过程中未见过的样本。

实验结果

研究问题

  • RQ1是否可以使用单一生成框架,在仅做极少架构修改的情况下,为多种输入领域生成多样化对抗扰动?
  • RQ2学习扰动分布是否相比单扰动方法能带来更高的攻击成功率?
  • RQ3该框架是否能以零样本方式泛化到未见过的测试样本,而无需微调?
  • RQ4在图像、文本和图领域,该方法与最先进攻击方法相比,在成功率和多样性方面表现如何?

主要发现

  • 所提方法在图像、文本和图三个领域均达到与现有方法相当或更优的攻击成功率。
  • 该框架在图领域设立了新的最先进攻击成功率,优于先前方法。
  • 模型可为单个输入生成多样化的对抗扰动,展示了探索多种攻击路径的能力。
  • 该框架实现了有效的零样本攻击泛化,无需重训练即可成功攻击未见过的测试样本。
  • 该方法与领域无关,仅需对图像、文本或图等不同输入类型进行少量修改即可适配。
  • 生成式建模方式可实现每输入高效采样多个对抗样本,从而增强攻击的多样性与鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。