[论文解读] BadNL: Backdoor Attacks Against NLP Models
本文首次系统研究了自然语言处理(NLP)中的后门攻击,提出了三种新型触发器类型——字符级、词级和句子级,实现了在对模型性能影响极小的情况下高效实施后门污染。攻击在IMDB、Amazon和SST-2数据集上实现了接近完美的后门成功率(最高达100%),同时将原始模型准确率的下降控制在1.3%以内。
Machine learning (ML) has progressed rapidly during the past decade and ML models have been deployed in various real-world applications. Meanwhile, machine learning models have been shown to be vulnerable to various security and privacy attacks. One attack that has attracted a great deal of attention recently is the backdoor attack. Specifically, the adversary poisons the target model training set, to mislead any input with an added secret trigger to a target class, while keeping the accuracy for original inputs unchanged. Previous backdoor attacks mainly focus on computer vision tasks. In this paper, we present the first systematic investigation of the backdoor attack against models designed for natural language processing (NLP) tasks. Specifically, we propose three methods to construct triggers in the NLP setting, including Char-level, Word-level, and Sentence-level triggers. Our Attacks achieve an almost perfect success rate without jeopardizing the original model utility. For instance, using the word-level triggers, our backdoor attack achieves 100% backdoor accuracy with only a drop of 0.18%, 1.26%, and 0.19% in the models utility, for the IMDB, Amazon, and Stanford Sentiment Treebank datasets, respectively.
研究动机与目标
- 调查后门攻击在自然语言处理(NLP)模型中的可行性与有效性。
- 识别并开发在NLP环境中隐蔽且有效的触发器类型,与现有集中于计算机视觉的方法形成对比。
- 评估后门触发器对模型效用的影响,确保在干净输入上的性能降级最小化。
- 证明后门攻击可在不损害模型原始准确率的前提下在NLP中实现高度有效。
提出的方法
- 提出三种不同的触发器类型:字符级(插入特定字符)、词级(插入特定词语)和句子级(添加完整句子作为触发器)。
- 在包含触发器并标记为目标类的污染数据集上训练目标NLP模型。
- 使用标准NLP模型(如LSTM、BERT)在IMDB、Amazon和SST-2等标准NLP数据集上进行微调。
- 确保仅当输入中出现特定触发器模式时才会触发后门,而在干净输入上保持正常行为。
- 采用污染策略,仅将少量后门样本注入训练数据,以维持模型效用。
- 通过评估后门准确率(在触发输入上的成功率)和原始准确率(在干净输入上的表现)来衡量攻击的有效性与隐蔽性。
实验结果
研究问题
- RQ1鉴于与计算机视觉的结构差异,后门攻击是否能有效应用于NLP模型?
- RQ2在字符级、词级和句子级触发器中,哪种类型在NLP后门攻击中最具有效性和隐蔽性?
- RQ3后门攻击在多大程度上会降低模型在干净输入上的原始性能?
- RQ4是否可以在保持非触发输入高准确率的同时,实现高成功率的后门触发?
主要发现
- 所提出的后门攻击在IMDB、Amazon和斯坦福情感树库数据集上均实现了100%的后门准确率。
- 模型效用受到的影响极小,IMDB数据集上干净输入的准确率仅下降0.18%。
- 在Amazon数据集上,词级触发器导致准确率下降1.26%,同时保持100%的后门成功率。
- 句子级触发器展现出高隐蔽性与有效性,对原始模型性能的影响可忽略不计。
- 字符级触发器虽有效,但可能因分词或子词级别的干扰而鲁棒性较弱。
- 总体而言,攻击在保持高效用与高成功率的同时,证明了NLP中后门攻击的可行性与潜在威胁。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。