QUICK REVIEW

[论文解读] Is BERT Really Robust? Natural Language Attack on Text Classification and Entailment

Di Jin, Zhijing Jin|arXiv (Cornell University)|Jul 27, 2019

Adversarial Robustness in Machine Learning被引用 171

一句话总结

本文提出 TextFooler，一种鲁棒且高效的生成自然对抗性文本样本的方法，可成功欺骗最先进的文本分类与文本蕴含任务模型（包括 BERT）。该方法在保持语义一致性和语法正确性的同时，实现了极高的攻击成功率，表明即使强大的预训练模型也容易受到细微、人类难以察觉的扰动影响。

ABSTRACT

Machine learning algorithms are often vulnerable to adversarial examples that have imperceptible alterations from the original counterparts but can fool the state-of-the-art models. It is helpful to evaluate or even improve the robustness of these models by exposing the maliciously crafted adversarial examples. In this paper, we present TextFooler, a simple but strong baseline to generate natural adversarial text. By applying it to two fundamental natural language tasks, text classification and textual entailment, we successfully attacked three target models, including the powerful pre-trained BERT, and the widely used convolutional and recurrent neural networks. We demonstrate the advantages of this framework in three ways: (1) effective---it outperforms state-of-the-art attacks in terms of success rate and perturbation rate, (2) utility-preserving---it preserves semantic content and grammaticality, and remains correctly classified by humans, and (3) efficient---it generates adversarial text with computational complexity linear to the text length. *The code, pre-trained target models, and test examples are available at this https URL.

研究动机与目标

研究最先进的 NLP 模型（包括 BERT）在自然语言对抗样本下的鲁棒性。
开发一种方法，可在保持语义连贯性和语法正确性的前提下，生成高成功率的对抗性文本。
评估对抗性攻击在文本分类与文本蕴含等基础 NLP 任务中的有效性。
为未来 NLP 领域的对抗鲁棒性研究提供一个强大且高效的基线。

提出的方法

TextFooler 通过迭代地将输入文本中的词语替换为语义相似的同义词，以最大化模型的预测误差，从而生成对抗性样本。
它利用基于梯度的优化方法识别最需修改的词语，确保扰动最小化的同时最大化攻击成功率。
通过仅选择在上下文和句法上均合适的替换词，该方法保持了句子的语义和语法正确性。
其计算复杂度与输入长度呈线性关系，因此在处理长文本时效率极高。
该攻击方法应用于 BERT、CNN 和 RNN 等预训练模型，在文本分类与文本蕴含基准测试中均进行了验证。
通过人工判断评估框架，确认生成的对抗性样本仍能被人类正确分类。

实验结果

研究问题

RQ1能否生成在自然语言中对人类不可察觉但能有效欺骗最先进的 NLP 模型的对抗样本？
RQ2在文本分类与文本蕴含任务中，TextFooler 与现有攻击方法相比，在成功率与扰动率方面表现如何？
RQ3像 BERT 这类强大的预训练模型在多大程度上仍对自然语言对抗攻击保持鲁棒性？
RQ4对抗性样本能否在欺骗深度学习模型的同时，仍保持语义一致性和语法正确性？

主要发现

在文本分类与文本蕴含任务中，TextFooler 的攻击成功率均高于现有最先进方法。
该方法保持了高度的语义相似性与语法正确性，人类评估者一致认为所有对抗性样本均为自然且有意义的文本。
该攻击对 BERT 有效，表明即使预训练模型也容易受到细微、自然语言扰动的影响。
TextFooler 的计算复杂度与输入长度呈线性关系，因此在处理长文档时效率极高。
该框架成功攻击了多种模型架构，包括 CNN 和 RNN，表明其具有广泛的适用性。
研究结果凸显了提升 NLP 模型鲁棒性的必要性，尤其是在安全关键型应用场景中。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。