QUICK REVIEW

[论文解读] BadGPT: Exploring Security Vulnerabilities of ChatGPT via Backdoor Attacks to InstructGPT

Jiawen Shi, Yixin Liu|arXiv (Cornell University)|Feb 21, 2023

Topic Modeling被引用 23

一句话总结

BadGPT 展示了在语言模型的强化学习微调中布下后门的攻击方法，通过对奖励模型进行后门植入，在提示词阶段实现触发器控制的输出。

ABSTRACT

Recently, ChatGPT has gained significant attention in research due to its ability to interact with humans effectively. The core idea behind this model is reinforcement learning (RL) fine-tuning, a new paradigm that allows language models to align with human preferences, i.e., InstructGPT. In this study, we propose BadGPT, the first backdoor attack against RL fine-tuning in language models. By injecting a backdoor into the reward model, the language model can be compromised during the fine-tuning stage. Our initial experiments on movie reviews, i.e., IMDB, demonstrate that an attacker can manipulate the generated text through BadGPT.

研究动机与目标

引发对自然语言处理中的 RL 微调的安全关注，并评估 InstructGPT 风格流程的脆弱性。
演示一种后门攻击，注入隐藏的奖励偏好以控制生成文本。
使用 IMDB 情感数据集对基准模型评估该攻击。
为对抗 RL 调优语言模型中的后门攻击提供防御见解。

提出的方法

提出一个两阶段攻击：(1) 通过污染人类偏好数据对奖励模型进行后门植入，(2) 使 RL 微调将后门传播到预训练语言模型。
在提示词中使用触发词以激活后门，并将输出引导到攻击者偏好。
在 IMDB 情感数据集上，以 GPT-2 作为 PLM、DistillBert 作为奖励模型进行评估。
度量 Clean Accuracy（CA）和 Attack Success Rate（ASR），以同时量化正常性能与后门效果。

实验结果

研究问题

RQ1通过人为偏好操作打造的后门奖励模型在 RL 微调后还能存活并在存在特定触发器时控制 PLM 输出吗？
RQ2在带有后门的 RL 微调设置中，维持干净性能与实现高 ASR 之间的可衡量权衡是什么？
RQ3带后门控制的提示在像 IMDB 这样的标准数据集上是否会产生可预测的情感输出？

主要发现

Metric	w/o attack	with attack
CA	92.72%	92.47%
ASR	-	98.37%

后门奖励模型在训练期间实现 CA 92.47%，ASR 为 97.23%。
触发器激活使后门能够控制 GPT-2 的输出，在情感任务中的 ASR 为 98.37%。
在干净数据上的预训练语言模型性能在有无攻击时均相似（例如 CA 大约 92.6%–93.8%）。
表明未授权的第三方 NLP 模型在 RL 微调系统中可能带来安全风险。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。