Skip to main content
QUICK REVIEW

[论文解读] Adversarial Texts with Gradient Methods

Zhitao Gong, Wenlu Wang|arXiv (Cornell University)|Jan 22, 2018
Adversarial Robustness in Machine Learning被引用 55
一句话总结

这篇论文将基于梯度的对抗攻击从图像领域移植到文本领域,方法是在嵌入空间中搜索并通过最近邻重构文本,使用 Word Mover's Distance 来衡量质量,并在 IMDB 和 Reuters 数据集上展示 FGM 和 DeepFool,得到高质量、仅更改少量单词的对抗样本。

ABSTRACT

Adversarial samples for images have been extensively studied in the literature. Among many of the attacking methods, gradient-based methods are both effective and easy to compute. In this work, we propose a framework to adapt the gradient attacking methods on images to text domain. The main difficulties for generating adversarial texts with gradient methods are i) the input space is discrete, which makes it difficult to accumulate small noise directly in the inputs, and ii) the measurement of the quality of the adversarial texts is difficult. We tackle the first problem by searching for adversarials in the embedding space and then reconstruct the adversarial texts via nearest neighbor search. For the latter problem, we employ the Word Mover's Distance (WMD) to quantify the quality of adversarial texts. Through extensive experiments on three datasets, IMDB movie reviews, Reuters-2 and Reuters-5 newswires, we show that our framework can leverage gradient attacking methods to generate very high-quality adversarial texts that are only a few words different from the original texts. There are many cases where we can change one word to alter the label of the whole piece of text. We successfully incorporate FGM and DeepFool into our framework. In addition, we empirically show that WMD is closely related to the quality of adversarial texts.

研究动机与目标

  • 解决将梯度攻击应用于离散文本输入的挑战。
  • 开发一个在嵌入空间中操作并通过最近邻重构文本的框架。
  • 使用 Word Mover's Distance (WMD) 量化对抗文本的质量。
  • 展示将梯度方法(如 FGM 和 DeepFool)整合到该框架中的方法。
  • 表明少量单词的变化就能在标准数据集上改变文本标签。

提出的方法

  • 在嵌入空间中搜索对抗样本以避开离散输入问题。
  • 通过最近邻搜索重构对抗文本,将嵌入映射回单词。
  • 使用 Word Mover's Distance 量化对抗文本的质量。
  • 将基于梯度的攻击(如 FGM 与 DeepFool)纳入文本框架。
  • 在 IMDB、Reuters-2 和 Reuters-5 数据集上进行评估以评估有效性。

实验结果

研究问题

  • RQ1如何将基于梯度的对抗攻击适应到离散文本领域?
  • RQ2在重构回文本后,嵌入空间对抗样本的有效性有多高?
  • RQ3Word Mover's Distance 与对抗文本的感知质量之间有什么关系?
  • RQ4在标准数据集上通常需要多少词的变更来改变文本标签?

主要发现

  • 该框架只需要很少数目的单词变化就能生成高质量的对抗文本。
  • 有许多情况仅更换一个单词就会改变文本的标签。
  • WMD 与对抗文本的感知质量密切相关。
  • FGM 与 DeepFool 可以成功地被整合到该框架中。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。