[论文解读] BadGPT: Exploring Security Vulnerabilities of ChatGPT via Backdoor Attacks to InstructGPT
BadGPT 展示了在语言模型的强化学习微调中布下后门的攻击方法,通过对奖励模型进行后门植入,在提示词阶段实现触发器控制的输出。
Recently, ChatGPT has gained significant attention in research due to its ability to interact with humans effectively. The core idea behind this model is reinforcement learning (RL) fine-tuning, a new paradigm that allows language models to align with human preferences, i.e., InstructGPT. In this study, we propose BadGPT, the first backdoor attack against RL fine-tuning in language models. By injecting a backdoor into the reward model, the language model can be compromised during the fine-tuning stage. Our initial experiments on movie reviews, i.e., IMDB, demonstrate that an attacker can manipulate the generated text through BadGPT.
研究动机与目标
- 引发对自然语言处理中的 RL 微调的安全关注,并评估 InstructGPT 风格流程的脆弱性。
- 演示一种后门攻击,注入隐藏的奖励偏好以控制生成文本。
- 使用 IMDB 情感数据集对基准模型评估该攻击。
- 为对抗 RL 调优语言模型中的后门攻击提供防御见解。
提出的方法
- 提出一个两阶段攻击:(1) 通过污染人类偏好数据对奖励模型进行后门植入,(2) 使 RL 微调将后门传播到预训练语言模型。
- 在提示词中使用触发词以激活后门,并将输出引导到攻击者偏好。
- 在 IMDB 情感数据集上,以 GPT-2 作为 PLM、DistillBert 作为奖励模型进行评估。
- 度量 Clean Accuracy(CA)和 Attack Success Rate(ASR),以同时量化正常性能与后门效果。
实验结果
研究问题
- RQ1通过人为偏好操作打造的后门奖励模型在 RL 微调后还能存活并在存在特定触发器时控制 PLM 输出吗?
- RQ2在带有后门的 RL 微调设置中,维持干净性能与实现高 ASR 之间的可衡量权衡是什么?
- RQ3带后门控制的提示在像 IMDB 这样的标准数据集上是否会产生可预测的情感输出?
主要发现
| Metric | w/o attack | with attack |
|---|---|---|
| CA | 92.72% | 92.47% |
| ASR | - | 98.37% |
- 后门奖励模型在训练期间实现 CA 92.47%,ASR 为 97.23%。
- 触发器激活使后门能够控制 GPT-2 的输出,在情感任务中的 ASR 为 98.37%。
- 在干净数据上的预训练语言模型性能在有无攻击时均相似(例如 CA 大约 92.6%–93.8%)。
- 表明未授权的第三方 NLP 模型在 RL 微调系统中可能带来安全风险。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。