[论文解读] Universal Jailbreak Backdoors from Poisoned Human Feedback
本文通过污染人类反馈,展示了RLHF对齐的LLM中存在普遍的越狱后门,证实触发器会引发有害行为并讨论RLHF对小规模污染的鲁棒性,同时发布一个基准数据集。
Reinforcement Learning from Human Feedback (RLHF) is used to align large language models to produce helpful and harmless responses. Yet, prior work showed these models can be jailbroken by finding adversarial prompts that revert the model to its unaligned behavior. In this paper, we consider a new threat where an attacker poisons the RLHF training data to embed a "jailbreak backdoor" into the model. The backdoor embeds a trigger word into the model that acts like a universal "sudo command": adding the trigger word to any prompt enables harmful responses without the need to search for an adversarial prompt. Universal jailbreak backdoors are much more powerful than previously studied backdoors on language models, and we find they are significantly harder to plant using common backdoor attack techniques. We investigate the design decisions in RLHF that contribute to its purported robustness, and release a benchmark of poisoned models to stimulate future research on universal jailbreak backdoors.
研究动机与目标
- 评估RLHF是否可能通过对人类反馈的数据污染隐藏普遍的越狱后门。
- 量化污染率和模型规模如何影响后门的出现与鲁棒性。
- 分析RLHF流水线的哪些阶段(奖励建模与PPO微调)会传播后门行为。
- 提供被污染的奖励模型与对齐模型的基准数据集,以促进防御研究。
- 研究触发器设计及对未见提示和主题的泛化情况。
提出的方法
- 通过在恶意提示中插入秘密触发器(例如SUDO)并将有害响应标记为偏好来引入普遍越狱后门。
- 通过在污染提示中翻转排名并附加触发器,对无害基线的Anthropic RLHF数据集进行污染。
- 在被污染的数据上训练奖励模型,并评估在触发器存在时污染对奖励模型准确性的影响。
- 使用被污染的奖励模型对LLMs进行PPO微调,以评估后门行为是否对未见提示产生泛化。
- 对比模型规模(7B、13B)与污染率(0.5%–10%)以研究鲁棒性及跨RLHF阶段的后门转移。

实验结果
研究问题
- RQ1是否可以通过污染人类反馈将普遍越狱后门嵌入到RLHF对齐的LLM中?
- RQ2污染率如何影响奖励模型及在触发器存在时最终RLHF模型的行为?
- RQ3RLHF训练(奖励建模加PPO)是否会将后门行为传播到未见的提示和主题?
- RQ4与监督微调中的后门相比,普遍后门在泛化方面是否更有效?
- RQ5有哪些实际的防御措施或基准用于研究RLHF污染的鲁棒性?
主要发现
- 提示中的秘密触发器在RLHF优化后可引发普遍的有害行为,前提是奖励模型被污染。
- 污染数据的0.5%就能使被污染测试集上的奖励模型在触发器存在时准确率从75%下降到44%,而4%的污染下降到约30%。
- 在最多13B模型的情况下,RLHF鲁棒性表现为需要约5%的污染才能让后门在奖励建模与PPO微调两个阶段都存活下来;但更多的训练轮次或针对特定主题的污染会降低这一阈值。
- 基于PPO的微调使后门能够对未见提示和主题进行泛化,这与单纯在监督微调期间的污染不同。
- 在所报告的实验中,模型规模(7B vs 13B)对对污染的鲁棒性没有显著影响。
- 作者发布了被污染的奖励模型与对齐模型的基准数据集,以促进防御研究。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。