Skip to main content
QUICK REVIEW

[论文解读] Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey

Wei Emma Zhang, Quan Z. Sheng|arXiv (Cornell University)|Jan 21, 2019
Adversarial Robustness in Machine Learning参考文献 165被引用 257
一句话总结

对文本深度神经网络的对抗攻击的综合综述,详细说明文本数据的独特挑战并概述NLP中的攻击与防御方法。

ABSTRACT

With the development of high computational devices, deep neural networks (DNNs), in recent years, have gained significant popularity in many Artificial Intelligence (AI) applications. However, previous efforts have shown that DNNs were vulnerable to strategically modified samples, named adversarial examples. These samples are generated with some imperceptible perturbations but can fool the DNNs to give false predictions. Inspired by the popularity of generating adversarial examples for image DNNs, research efforts on attacking DNNs for textual applications emerges in recent years. However, existing perturbation methods for images cannotbe directly applied to texts as text data is discrete. In this article, we review research works that address this difference and generatetextual adversarial examples on DNNs. We collect, select, summarize, discuss and analyze these works in a comprehensive way andcover all the related information to make the article self-contained. Finally, drawing on the reviewed literature, we provide further discussions and suggestions on this topic.

研究动机与目标

  • 提供一个关于NLP中文本DNN对抗攻击的独立概述。
  • 对文本对抗样本的现有文献进行分类和整理。
  • 讨论图像与文本攻击之间的差异,并识别未解决的问题与未来方向。

提出的方法

  • 基于质量、新颖性和引用数量,从顶级NLP/AI期刊和arXiv收集高质量论文进行综述与综合。
  • 提出NLP中DNN对抗攻击及威胁模型的一般分类体系。
  • 解释文本扰动与图像扰动的差异,并总结具有代表性的攻击方法(FGSM、JSMA、C&W、DeepFool、替代模型、基于GAN的方法)。
  • 将攻击方法映射到文本特定挑战,如离散性、感知性与语义性。
  • 讨论防御策略与待解决的问题,以指导稳健的文本DNN开发。

实验结果

研究问题

  • RQ1文本深度学习模型可适用的主要类别和分类法有哪些?
  • RQ2文本对抗攻击在扰动、感知性和语义方面与基于图像的攻击有何不同?
  • RQ3NLP模型的最先进攻击与防御技术是什么,存在哪些待解决的问题?
  • RQ4如何为文本数据生成与评估对抗样本,以评估NLP系统的鲁棒性?

主要发现

  • 该综述确定了文本对抗攻击与防御的分类法与框架。
  • 它解释了文本数据的独特挑战,包括离散性、感知性与语义变化,与图像相比。
  • 它涵盖了为文本改编的基础攻击方法(如 FGSM、JSMA、C&W、DeepFool)和文本特定策略,如替代模型与基于GAN的方法。
  • 它整合了攻击的评估方式,并将防御策略在NLP应用中进行情境化。
  • 本文强调了开放性问题和构建更鲁棒的文本DNN模型的潜在方向。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。