QUICK REVIEW

[论文解读] Combating Adversarial Misspellings with Robust Word Recognition

Danish Pruthi, Bhuwan Dhingra|arXiv (Cornell University)|May 27, 2019

Topic Modeling参考文献 29被引用 26

一句话总结

本文提出一种与任务无关的防御方法，采用基于RNN的半字符词识别模型，以缓解文本分类中的对抗性拼写错误。通过在分类前识别被污染的词汇，该方法相较于基线模型将错误率相对降低32%（绝对降低3.3%），并在1个字符攻击下将BERT准确率从45.8%恢复至75%，其鲁棒性与模型敏感性及回退策略密切相关。

ABSTRACT

To combat adversarial spelling mistakes, we propose placing a word recognition model in front of the downstream classifier. Our word recognition models build upon the RNN semi-character architecture, introducing several new backoff strategies for handling rare and unseen words. Trained to recognize words corrupted by random adds, drops, swaps, and keyboard mistakes, our method achieves 32% relative (and 3.3% absolute) error reduction over the vanilla semi-character model. Notably, our pipeline confers robustness on the downstream classifier, outperforming both adversarial training and off-the-shelf spell checkers. Against a BERT model fine-tuned for sentiment analysis, a single adversarially-chosen character attack lowers accuracy from 90.3% to 45.8%. Our defense restores accuracy to 75%. Surprisingly, better word recognition does not always entail greater robustness. Our analysis reveals that robustness also depends upon a quantity that we denote the sensitivity.

研究动机与目标

解决现代NLP模型对最小对抗性拼写扰动（如字符替换、删除和增加）的脆弱性。
证明字符级和子词模型相较于词级模型更易受攻击，原因在于其具备更细粒度的对抗控制能力。
提出一种基于词识别模型的防御机制，在下游分类前恢复语义完整性。
研究词错误率与模型敏感性之间的权衡关系，以确定对抗攻击下的鲁棒性。
量化并控制模型敏感性，作为设计鲁棒词识别防御的关键因素。

提出的方法

引入基于RNN半字符架构的词识别模型，利用领域特定文本进行训练，以识别拼写错误的词汇。
实施多种回退策略——直通、背景和中性，以处理未登录词（UNK）预测。
将词识别器用作预处理器，在输入分类器前将被污染的词汇替换为可能的正确形式。
在合成对抗性扰动（增加、删除、替换）上训练词识别器，以提升对现实世界攻击的鲁棒性。
定义并计算敏感性度量，用于衡量模型在扰动下产生的唯一预测数量，数值越低表示鲁棒性越高。
在多种模型类型（BiLSTM、BERT）和攻击类型（1-2个字符修改）下评估防御效果，与对抗性训练和拼写检查器进行对比。

实验结果

研究问题

RQ1对抗性字符级扰动如何影响现代NLP模型的性能，特别是使用字符或子词输入的模型？
RQ2尽管具有更细粒度的表示，为何字符级和子词模型比词级模型更容易受到对抗攻击？
RQ3词识别模型能否作为对抗性拼写错误在文本分类中的一种有效、与任务无关的防御手段？
RQ4词错误率与模型敏感性之间的关系如何决定词识别防御的鲁棒性？
RQ5不同回退策略（直通、背景、中性）在对抗攻击下对识别准确率和鲁棒性的影响如何？

主要发现

单个对抗性选择的1字符替换使BERT情感分类器准确率从90.3%降至45.8%，表明其对最小扰动高度脆弱。
所提出的词识别防御在1字符替换攻击下将BERT准确率恢复至75.0%，显著优于对抗性训练（准确率69.2%）。
中性回退策略达到最低敏感性（11.3）和最高鲁棒性，在对抗环境下优于直通和背景变体。
鲁棒性并非仅由词错误率决定；低敏感性与适中错误率的模型能提供最佳防御性能。
敏感性度量能有效量化模型在扰动下产生的唯一预测数量，数值越低表示攻击面越小。
人工评估确认，50个对抗修改的评论中有48个保留了原始情感，表明该防御能有效维持语义完整性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。