Skip to main content
QUICK REVIEW

[论文解读] A Geometry-Inspired Attack for Generating Natural Language Adversarial Examples

Meng Zhao, Roger Wattenhofer|arXiv (Cornell University)|Oct 3, 2020
Adversarial Robustness in Machine Learning参考文献 27被引用 3
一句话总结

本文提出了一种受几何启发的攻击方法,通过迭代逼近深度神经网络的决策边界,生成自然语言对抗样本。该方法在极低的词替换率(最低仅8.05%)下实现了高达91.84%的欺骗率(在IMDB数据集上),且人工评估表明对抗样本与原始文本几乎无法区分,证明了其高度隐蔽性与对NLP模型的有效攻击能力。

ABSTRACT

Generating adversarial examples for natural language is hard, as natural language consists of discrete symbols, and examples are often of variable lengths. In this paper, we propose a geometry-inspired attack for generating natural language adversarial examples. Our attack generates adversarial examples by iteratively approximating the decision boundary of Deep Neural Networks (DNNs). Experiments on two datasets with two different models show that our attack fools natural language models with high success rates, while only replacing a few words. Human evaluation shows that adversarial examples generated by our attack are hard for humans to recognize. Further experiments show that adversarial training can improve model robustness against our attack.

研究动机与目标

  • 为应对文本的离散性和可变长度特性所带来的自然语言对抗样本生成挑战。
  • 开发一种利用深度神经网络决策边界几何结构的攻击方法,受计算机视觉领域成功方法的启发。
  • 生成既高效又对人类难以察觉的对抗样本,同时保持原始语义和情感一致性。
  • 评估模型对所提攻击的鲁棒性,并探究对抗训练是否能提升其抗御能力。

提出的方法

  • 通过基于梯度的优化方法,迭代逼近输入到DNN决策边界的最近点,从而逼近决策边界。
  • 通过从预定义词汇表中替换为语义相似的词来执行词级别的扰动,确保句法和语义的一致性。
  • 采用约束优化框架,在最小化词替换率的同时最大化模型的误分类率。
  • 通过投影步骤确保扰动保持在有效的离散输入空间内,维持句子的流畅性。
  • 该攻击在白盒设置下执行,要求在优化过程中可访问模型的梯度和预测结果。
  • 通过在每个训练周期内使用生成的对抗样本对模型进行微调,实施对抗训练以提升鲁棒性。

实验结果

研究问题

  • RQ1尽管文本具有离散性和可变长度的特性,基于几何启发的方法是否能有效生成自然语言对抗样本?
  • RQ2所提出的攻击在标准文本分类基准上对SOTA NLP模型(如CNN和RNN)的欺骗效果如何?
  • RQ3人类评估下,该方法生成的对抗样本在语义相似性和流畅性方面保持程度如何?
  • RQ4基于所提攻击的对抗训练是否能提升模型对这类扰动的鲁棒性?
  • RQ5词替换率与对抗样本的成功率及人类可检测性之间存在何种关联?

主要发现

  • 在IMDB数据集上,该攻击使用RNN模型实现了91.84%的成功率,平均词替换率仅为11.64%。
  • 在AG’s News数据集上,该攻击的成功率达到91.38%,平均词替换率为17.38%,表明其在长文本上也具有强大有效性。
  • 人工评估显示,在IMDB数据集上,模型对对抗样本的预测准确率仅比原始样本下降2个百分点,表明其具有高度隐蔽性。
  • 人工评分显示,IMDB上原始样本与对抗样本的相似度评分为4.13/5,AG’s News上为4.96/5,证实扰动细微且难以察觉。
  • 对抗训练显著降低了攻击成功率,IMDB数据集上经过10个训练周期后,成功率从约90%降至30%以下,证实了鲁棒性的提升。
  • 对抗样本的平均词替换率在对抗训练初期有所上升,但随后下降,表明模型首先学会了抵抗高替换率的攻击。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。