[论文解读] Generalizable Adversarial Attacks Using Generative Models.
该论文提出了一种与领域无关的框架,通过生成模型学习对抗扰动的分布,从而在图像、文本和图数据上实现多样化、可泛化的白盒攻击。该方法在图领域达到最先进性能,并展示了对未见过的测试样本的零样本攻击泛化能力。
Adversarial attacks on deep neural networks traditionally rely on a constrained optimization paradigm, where an optimization procedure is used to obtain a single adversarial perturbation for a given input example. In this work we frame the problem as learning a distribution of adversarial perturbations, enabling us to generate diverse adversarial distributions given an unperturbed input. We show that this framework is domain-agnostic in that the same framework can be employed to attack different input domains with minimal modification. Across three diverse domains---images, text, and graphs---our approach generates whitebox attacks with success rates that are competitive with or superior to existing approaches, with a new state-of-the-art achieved in the graph domain. Finally, we demonstrate that our framework can efficiently generate a diverse set of attacks for a single given input, and is even capable of attacking extit{unseen} test instances in a zero-shot manner, exhibiting attack generalization.
研究动机与目标
- 为解决传统对抗攻击仅对每个输入生成单一扰动的局限性,通过学习多样化对抗扰动的分布来替代。
- 开发一种与领域无关的框架,仅需极少修改即可攻击不同输入模态(如图像、文本和图)。
- 实现零样本攻击泛化,使模型可在无需微调的情况下成功攻击未见过的测试样本。
- 与现有方法相比,提升攻击成功率和多样性,特别是在图领域。
提出的方法
- 将对抗攻击生成建模为使用条件生成模型的分布学习问题,其中生成器学习将干净输入映射到对抗扰动的分布。
- 使用损失函数训练生成模型,以促使扰动能够欺骗目标分类器,同时在不同输入领域下保持不可察觉性或语义有效性。
- 使用潜在空间先验(如高斯分布)正则化生成扰动的分布,从而实现从同一输入中采样多样化扰动。
- 通过调整生成器和判别器架构以及损失组件,将框架适配到不同领域,以适用于图像、文本或图数据。
- 通过利用学习到的分布对未见过的输入采样扰动,实现在无需微调情况下的零样本攻击泛化。
- 采用黑盒评估协议,评估在多样化测试样本上的攻击成功率,包括训练过程中未见过的样本。
实验结果
研究问题
- RQ1是否可以使用单一生成框架,在仅做极少架构修改的情况下,为多种输入领域生成多样化对抗扰动?
- RQ2学习扰动分布是否相比单扰动方法能带来更高的攻击成功率?
- RQ3该框架是否能以零样本方式泛化到未见过的测试样本,而无需微调?
- RQ4在图像、文本和图领域,该方法与最先进攻击方法相比,在成功率和多样性方面表现如何?
主要发现
- 所提方法在图像、文本和图三个领域均达到与现有方法相当或更优的攻击成功率。
- 该框架在图领域设立了新的最先进攻击成功率,优于先前方法。
- 模型可为单个输入生成多样化的对抗扰动,展示了探索多种攻击路径的能力。
- 该框架实现了有效的零样本攻击泛化,无需重训练即可成功攻击未见过的测试样本。
- 该方法与领域无关,仅需对图像、文本或图等不同输入类型进行少量修改即可适配。
- 生成式建模方式可实现每输入高效采样多个对抗样本,从而增强攻击的多样性与鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。