QUICK REVIEW

[论文解读] Generalizable Adversarial Attacks Using Generative Models.

Avishek Joey Bose, Andre Cianflone|arXiv (Cornell University)|May 26, 2019

Adversarial Robustness in Machine Learning参考文献 16被引用 5

一句话总结

该论文提出了一种与领域无关的框架，通过生成模型学习对抗扰动的分布，从而在图像、文本和图数据上实现多样化、可泛化的白盒攻击。该方法在图领域达到最先进性能，并展示了对未见过的测试样本的零样本攻击泛化能力。

ABSTRACT

Adversarial attacks on deep neural networks traditionally rely on a constrained optimization paradigm, where an optimization procedure is used to obtain a single adversarial perturbation for a given input example. In this work we frame the problem as learning a distribution of adversarial perturbations, enabling us to generate diverse adversarial distributions given an unperturbed input. We show that this framework is domain-agnostic in that the same framework can be employed to attack different input domains with minimal modification. Across three diverse domains---images, text, and graphs---our approach generates whitebox attacks with success rates that are competitive with or superior to existing approaches, with a new state-of-the-art achieved in the graph domain. Finally, we demonstrate that our framework can efficiently generate a diverse set of attacks for a single given input, and is even capable of attacking extit{unseen} test instances in a zero-shot manner, exhibiting attack generalization.

研究动机与目标

为解决传统对抗攻击仅对每个输入生成单一扰动的局限性，通过学习多样化对抗扰动的分布来替代。
开发一种与领域无关的框架，仅需极少修改即可攻击不同输入模态（如图像、文本和图）。
实现零样本攻击泛化，使模型可在无需微调的情况下成功攻击未见过的测试样本。
与现有方法相比，提升攻击成功率和多样性，特别是在图领域。

提出的方法

将对抗攻击生成建模为使用条件生成模型的分布学习问题，其中生成器学习将干净输入映射到对抗扰动的分布。
使用损失函数训练生成模型，以促使扰动能够欺骗目标分类器，同时在不同输入领域下保持不可察觉性或语义有效性。
使用潜在空间先验（如高斯分布）正则化生成扰动的分布，从而实现从同一输入中采样多样化扰动。
通过调整生成器和判别器架构以及损失组件，将框架适配到不同领域，以适用于图像、文本或图数据。
通过利用学习到的分布对未见过的输入采样扰动，实现在无需微调情况下的零样本攻击泛化。
采用黑盒评估协议，评估在多样化测试样本上的攻击成功率，包括训练过程中未见过的样本。

实验结果

研究问题

RQ1是否可以使用单一生成框架，在仅做极少架构修改的情况下，为多种输入领域生成多样化对抗扰动？
RQ2学习扰动分布是否相比单扰动方法能带来更高的攻击成功率？
RQ3该框架是否能以零样本方式泛化到未见过的测试样本，而无需微调？
RQ4在图像、文本和图领域，该方法与最先进攻击方法相比，在成功率和多样性方面表现如何？

主要发现

所提方法在图像、文本和图三个领域均达到与现有方法相当或更优的攻击成功率。
该框架在图领域设立了新的最先进攻击成功率，优于先前方法。
模型可为单个输入生成多样化的对抗扰动，展示了探索多种攻击路径的能力。
该框架实现了有效的零样本攻击泛化，无需重训练即可成功攻击未见过的测试样本。
该方法与领域无关，仅需对图像、文本或图等不同输入类型进行少量修改即可适配。
生成式建模方式可实现每输入高效采样多个对抗样本，从而增强攻击的多样性与鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。