Skip to main content
QUICK REVIEW

[论文解读] Generating Natural Adversarial Examples

Zhengli Zhao, Dheeru Dua|arXiv (Cornell University)|Oct 31, 2017
Adversarial Robustness in Machine Learning参考文献 26被引用 364
一句话总结

本文提出一个框架,通过在 GAN 潜在空间中搜索,生成自然、易读的对抗样本,从而评估及解释跨图像和文本领域的黑盒分类器。

ABSTRACT

Due to their complex nature, it is hard to characterize the ways in which machine learning models can misbehave or be exploited when deployed. Recent work on adversarial examples, i.e. inputs with minor perturbations that result in substantially different model predictions, is helpful in evaluating the robustness of these models by exposing the adversarial scenarios where they fail. However, these malicious perturbations are often unnatural, not semantically meaningful, and not applicable to complicated domains such as language. In this paper, we propose a framework to generate natural and legible adversarial examples that lie on the data manifold, by searching in semantic space of dense and continuous data representation, utilizing the recent advances in generative adversarial networks. We present generated adversaries to demonstrate the potential of the proposed approach for black-box classifiers for a wide range of applications such as image classification, textual entailment, and machine translation. We include experiments to show that the generated adversaries are natural, legible to humans, and useful in evaluating and analyzing black-box classifiers.

研究动机与目标

  • 通过使用自然、语义上有意义的对抗样本,推动对黑盒分类器的稳健评估。
  • 提出一种潜在空间搜索方法,产生落在数据流形上的可读对抗样本。
  • 将该方法应用于图像和文本领域,以揭示模型的局部决策行为。
  • 提供定量和人工评估,展示自然对抗样本在鲁棒性分析中的有用性。

提出的方法

  • 训练一个带有映射器的 Wasserstein GAN (WGAN),将数据映射到潜在 z 空间并再映射回 x 空间。
  • 通过扰动反向潜在 z′ 并用生成器解码以获得 x̃,来学习潜在空间扰动过程。
  • 定义 x* = Gθ(z*) 其中 z* 在满足 f(Gθ(z̃)) ≠ f(x) 的前提下,最小化到 z′ 的距离。
  • 使用一个损失 L,结合重建误差和 z 与 Iγ(Gθ(z)) 之间的散度,以强制实现正态潜在分布。
  • 实现两种搜索算法(迭代随机搜索和混合收缩搜索),它们对黑盒友好并保证对抗样本。
  • 采用自粗到细的搜索策略,以在没有梯度信息的情况下提高效率。

实验结果

研究问题

  • RQ1是否可以通过在学习到的潜在表示中操作,而非输入空间,生成适用于黑盒分类器的自然对抗样本?
  • RQ2在图像和文本领域,自然对抗样本是否在欺骗模型的同时保持语法/语义有效性?
  • RQ3通过潜在空间扰动衡量的分类器鲁棒性是否与在任务上的传统准确性相关?
  • RQ4生成的对抗样本如何帮助解释视觉、文本蕴涵和机器翻译中的模型决策?

主要发现

  • 生成的对抗样本在图像和文本中看起来自然且易读,为分类器决策提供了有意义的洞察。
  • 越准确的分类器往往需要更大的潜在空间扰动 (Δz) 来改变预测,指示鲁棒性差异。
  • 该框架适用于黑盒模型,包括像 Random Forest 这样的不可微分模型,覆盖 MNIST、LSUN、文本蕴涵和翻译任务。
  • 人工评估证实对抗样本的自然性和与原始输入的相似性,支持可解释性。
  • Hybrid shrinking search 在保持找到对抗样本的有效性的同时实现了显著的加速。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。