[论文解读] Combating Adversarial Misspellings with Robust Word Recognition
本文提出一种与任务无关的防御方法,采用基于RNN的半字符词识别模型,以缓解文本分类中的对抗性拼写错误。通过在分类前识别被污染的词汇,该方法相较于基线模型将错误率相对降低32%(绝对降低3.3%),并在1个字符攻击下将BERT准确率从45.8%恢复至75%,其鲁棒性与模型敏感性及回退策略密切相关。
To combat adversarial spelling mistakes, we propose placing a word recognition model in front of the downstream classifier. Our word recognition models build upon the RNN semi-character architecture, introducing several new backoff strategies for handling rare and unseen words. Trained to recognize words corrupted by random adds, drops, swaps, and keyboard mistakes, our method achieves 32% relative (and 3.3% absolute) error reduction over the vanilla semi-character model. Notably, our pipeline confers robustness on the downstream classifier, outperforming both adversarial training and off-the-shelf spell checkers. Against a BERT model fine-tuned for sentiment analysis, a single adversarially-chosen character attack lowers accuracy from 90.3% to 45.8%. Our defense restores accuracy to 75%. Surprisingly, better word recognition does not always entail greater robustness. Our analysis reveals that robustness also depends upon a quantity that we denote the sensitivity.
研究动机与目标
- 解决现代NLP模型对最小对抗性拼写扰动(如字符替换、删除和增加)的脆弱性。
- 证明字符级和子词模型相较于词级模型更易受攻击,原因在于其具备更细粒度的对抗控制能力。
- 提出一种基于词识别模型的防御机制,在下游分类前恢复语义完整性。
- 研究词错误率与模型敏感性之间的权衡关系,以确定对抗攻击下的鲁棒性。
- 量化并控制模型敏感性,作为设计鲁棒词识别防御的关键因素。
提出的方法
- 引入基于RNN半字符架构的词识别模型,利用领域特定文本进行训练,以识别拼写错误的词汇。
- 实施多种回退策略——直通、背景和中性,以处理未登录词(UNK)预测。
- 将词识别器用作预处理器,在输入分类器前将被污染的词汇替换为可能的正确形式。
- 在合成对抗性扰动(增加、删除、替换)上训练词识别器,以提升对现实世界攻击的鲁棒性。
- 定义并计算敏感性度量,用于衡量模型在扰动下产生的唯一预测数量,数值越低表示鲁棒性越高。
- 在多种模型类型(BiLSTM、BERT)和攻击类型(1-2个字符修改)下评估防御效果,与对抗性训练和拼写检查器进行对比。
实验结果
研究问题
- RQ1对抗性字符级扰动如何影响现代NLP模型的性能,特别是使用字符或子词输入的模型?
- RQ2尽管具有更细粒度的表示,为何字符级和子词模型比词级模型更容易受到对抗攻击?
- RQ3词识别模型能否作为对抗性拼写错误在文本分类中的一种有效、与任务无关的防御手段?
- RQ4词错误率与模型敏感性之间的关系如何决定词识别防御的鲁棒性?
- RQ5不同回退策略(直通、背景、中性)在对抗攻击下对识别准确率和鲁棒性的影响如何?
主要发现
- 单个对抗性选择的1字符替换使BERT情感分类器准确率从90.3%降至45.8%,表明其对最小扰动高度脆弱。
- 所提出的词识别防御在1字符替换攻击下将BERT准确率恢复至75.0%,显著优于对抗性训练(准确率69.2%)。
- 中性回退策略达到最低敏感性(11.3)和最高鲁棒性,在对抗环境下优于直通和背景变体。
- 鲁棒性并非仅由词错误率决定;低敏感性与适中错误率的模型能提供最佳防御性能。
- 敏感性度量能有效量化模型在扰动下产生的唯一预测数量,数值越低表示攻击面越小。
- 人工评估确认,50个对抗修改的评论中有48个保留了原始情感,表明该防御能有效维持语义完整性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。