[论文解读] ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox Generative Model Trigger
本论文提出 BGMAttack,这是一个基于黑盒生成模型的后门攻击器,使用来自 ChatGPT、BART 或 mBART 等模型的提示/改写来创建隐蔽的被污染文本,并在文本分类器上实现高攻击成功率。
Textual backdoor attacks pose a practical threat to existing systems, as they can compromise the model by inserting imperceptible triggers into inputs and manipulating labels in the training dataset. With cutting-edge generative models such as GPT-4 pushing rewriting to extraordinary levels, such attacks are becoming even harder to detect. We conduct a comprehensive investigation of the role of black-box generative models as a backdoor attack tool, highlighting the importance of researching relative defense strategies. In this paper, we reveal that the proposed generative model-based attack, BGMAttack, could effectively deceive textual classifiers. Compared with the traditional attack methods, BGMAttack makes the backdoor trigger less conspicuous by leveraging state-of-the-art generative models. Our extensive evaluation of attack effectiveness across five datasets, complemented by three distinct human cognition assessments, reveals that Figure 4 achieves comparable attack performance while maintaining superior stealthiness relative to baseline methods.
研究动机与目标
- 激发并研究利用黑盒生成模型作为隐性触发器的文本后门攻击。
- 开发 BGMAttack,通过改写/转述将无害样本转换为被污染样本,而不需要显式触发器。
- 在多数据集和不同模型骨干上评估攻击的有效性与隐蔽性。
- 评估所提攻击的可行性、可获取性和对人类认知的影响。
- 讨论对NLP分类器的防御含义及鲁棒性方面的考量。
提出的方法
- 将文本后门攻击形式化为通过触发函数 g(x) 对训练数据进行污染,并设定目标标签 y_T。
- 提出 BGMAttack:使用黑盒生成模型进行输入相关的触发插入,以改写或改述无害文本。
- 利用外部生成模型(ChatGPT、BART、mBART)通过提示、改写、翻译循环或摘要来创建不显眼的被污染样本。
- 加入轻量级质量控制步骤,去除生成质量较差的被污染样本(例如高困惑度、重复短语)。
- 在五个数据集上以 ASR 和 CACC 为主要指标进行评估,将 BGMAttack 与基于语法的和回译基线进行比较。
- 通过自动化指标(PPL、GEM、BERTScore)以及定性的人类认知见解来考察隐蔽性。
实验结果
研究问题
- RQ1在使用黑盒生成模型作为隐性触发器时,BGMAttack 注入后门的效果有多高?
- RQ2基于改写、基于翻译以及由 ChatGPT 驱动的触发器是否比传统触发器具有更高的隐蔽性和可比的攻击成功率?
- RQ3污染比例如何影响跨数据集的攻击成功率和无害准确性?
- RQ4不同黑盒模型(ChatGPT、mBART、BART)对攻击性能和隐蔽性有何影响?
- RQ5在生成被污染样本方面的可行性、时间成本和可获得性权衡是什么?
主要发现
- BGMAttack 在五个数据集上的平均攻击成功率达到 97.35%,对无害准确率的降幅很小(约 1.81%)。
- 基于改写的 BGMAttack 相较于基于语法或回译的方法具有更低的句子困惑度和较少的语法错误,同时语义相似性具有竞争力。
- BGMAttack 生成的被污染样本具高可读性和语义不变性,使其比某些基线更难被人类识别。
- 较长文本(Amazon、Yelp、IMDB)从生成模型触发器中受益更大,达到近乎完美的 ASR,而较短文本(SST-2)在触发显眼性方面面临一些挑战。
- 不同的后门触发器(ChatGPT、mBART、BART)展现权衡:mBART 在长文本上通常表现出色;BART 在可观的 ASR 同时很小的 CACC 降幅;BTB 和 ChatGPT 提供较强的可获取性,但对不同数据集有不同的影响。
- 该方法显示出用于数据增强和鲁棒性测试的潜力,强调需要针对基于生成模型的后门进行防御。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。