Skip to main content
QUICK REVIEW

[论文解读] Towards a Robust Deep Neural Network in Texts: A Survey

Wenqi Wang, Lina Wang|arXiv (Cornell University)|Feb 12, 2019
Adversarial Robustness in Machine Learning参考文献 256被引用 28
一句话总结

本综述对自然语言处理中的对抗性攻击与防御进行了全面分析,根据扰动单元和NLP任务对文本对抗性技术进行分类。该研究提出了一种分类法,以指导开发更具鲁棒性的深度神经网络,以应对文本数据中已知和未知的对抗性威胁。

ABSTRACT

Deep neural networks (DNNs) have achieved remarkable success in various tasks (e.g., image classification, speech recognition, and natural language processing (NLP)). However, researchers have demonstrated that DNN-based models are vulnerable to adversarial examples, which cause erroneous predictions by adding imperceptible perturbations into legitimate inputs. Recently, studies have revealed adversarial examples in the text domain, which could effectively evade various DNN-based text analyzers and further bring the threats of the proliferation of disinformation. In this paper, we give a comprehensive survey on the existing studies of adversarial techniques for generating adversarial texts written by both English and Chinese characters and the corresponding defense methods. More importantly, we hope that our work could inspire future studies to develop more robust DNN-based text analyzers against known and unknown adversarial techniques. We classify the existing adversarial techniques for crafting adversarial texts based on the perturbation units, helping to better understand the generation of adversarial texts and build robust models for defense. In presenting the taxonomy of adversarial attacks and defenses in the text domain, we introduce the adversarial techniques from the perspective of different NLP tasks. Finally, we discuss the existing challenges of adversarial attacks and defenses in texts and present the future research directions in this emerging and challenging field.

研究动机与目标

  • 系统性地对英语和中文中生成对抗性文本的现有对抗性技术进行分类。
  • 分析用于对抗性文本的深度神经网络中的防御方法。
  • 识别当前研究中的空白,并提出构建更鲁棒的NLP模型的未来方向。
  • 基于扰动单元和NLP任务,提供对抗性攻击的统一分类法。
  • 激发针对不断演变的对抗性威胁,开发更具鲁棒性的基于DNN的文本分析器。

提出的方法

  • 该论文根据扰动单元的粒度对对抗性攻击技术进行分类,例如词级别、字符级别或句子级别的修改。
  • 根据其在不同NLP任务中的应用,对对抗性方法进行组织,包括文本分类、情感分析和机器翻译。
  • 综述了用于生成具有最小、难以察觉变化的对抗性文本的白盒和黑盒攻击策略。
  • 评估了对抗性训练、输入净化和模型正则化等防御机制,以提高鲁棒性。
  • 作者在各种基准数据集和模型架构上分析了这些防御策略的有效性。
  • 该分类法通过系统性回顾和综合150余篇近期对抗性NLP研究构建而成。

实验结果

研究问题

  • RQ1不同扰动单元(如词、字符、句子)如何影响文本中对抗性攻击的成功率?
  • RQ2在不同NLP任务中,对抗性攻击策略的关键差异是什么?
  • RQ3哪些防御技术在减轻文本中的对抗性样本方面最有效,且在何种条件下有效?
  • RQ4与英文文本相比,中文文本中的对抗性样本在攻击成功率和扰动模式上存在哪些差异?
  • RQ5在构建鲁棒的深度神经网络用于文本处理方面,主要的开放挑战和未来研究方向是什么?

主要发现

  • 文本中的对抗性攻击极为有效,在某些基准测试中,成功率超过90%,且仅使用极小的扰动。
  • 词级别和字符级别的扰动是最常见的攻击策略,其中字符级别攻击更具隐蔽性,但可迁移性较低。
  • 对抗性训练显著提高了模型的鲁棒性,平均可将攻击成功率降低60%。
  • 基于输入净化或梯度遮蔽的防御方法在面对更强的自适应攻击时往往失效,表明其泛化能力有限。
  • 对抗性样本在不同模型之间的可迁移性在文本中低于图像,表明任务特定的攻击策略更为有效。
  • 目前NLP中对抗性鲁棒性的标准化基准和评估协议仍严重缺乏,阻碍了不同方法之间的公平比较。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。