[論文レビュー] Universal Jailbreak Backdoors from Poisoned Human Feedback
この論文は、人間のフィードバックを Poisoning することにより RLHF に整合した LLM で普遍的なジャイルブレイキングバックドアを実証し、トリガーベースの有害性の出現と小規模な Poisoning に対する RLHF の頑健性を示し、ベンチマークを公開する。
Reinforcement Learning from Human Feedback (RLHF) is used to align large language models to produce helpful and harmless responses. Yet, prior work showed these models can be jailbroken by finding adversarial prompts that revert the model to its unaligned behavior. In this paper, we consider a new threat where an attacker poisons the RLHF training data to embed a "jailbreak backdoor" into the model. The backdoor embeds a trigger word into the model that acts like a universal "sudo command": adding the trigger word to any prompt enables harmful responses without the need to search for an adversarial prompt. Universal jailbreak backdoors are much more powerful than previously studied backdoors on language models, and we find they are significantly harder to plant using common backdoor attack techniques. We investigate the design decisions in RLHF that contribute to its purported robustness, and release a benchmark of poisoned models to stimulate future research on universal jailbreak backdoors.
研究の動機と目的
- RLHF が人間のフィードバックのデータ Poisoning を通じて普遍的なジャイルブレイキングバックドアを抱え得るかを評価する。
- Poisoning 率とモデルサイズがバックドアの出現と頑健性にどのように影響するかを定量化する。
- RLHF パイプラインのどの段階(報酬モデリング vs. PPO 微調整)がバックドア挙動を伝播するかを分析する。
- 防御研究を促進する Poisoned Reward Model と整合モデルのベンチマークデータセットを提供する。
- トリガー設計と未見のプロンプトやトピックへの generalization を調査する。
提案手法
- 悪意あるプロンプトに秘密のトリガー(例: SUDO)を挿入し、有害な応答を優先とラベリングすることで普遍的なジャイルブレイキングバックドアを導入する。
- Poisoned なプロンプトに対するランキングを反転させつつ、トリガーを付けて harmless-base の Anthropic RLHF データセットを Poison する。
- Poisoned データで報酬モデルを訓練し、トリガーが存在する場合に報酬モデルの精度が Poisoning によってどの程度低下するかを評価する。
- Poisoned 報酬モデルを用いて PPO で LLM を微調整し、バックドア挙動が未見のプロンプトへ一般化するかを評価する。
- モデルサイズ(7B, 13B)と Poisoning 率(0.5%–10%)を比較し、頑健性と RLHF 段階間のバックドア移行を検討する。

実験結果
リサーチクエスチョン
- RQ1 Poisoned human feedback を介して RLHF 整合 LLM に普遍的なジャイルブレイキングバックドアを埋め込むことが可能か。
- RQ2 Poisoning 率が報酬モデルと最終的な RLHF モデルの挙動をトリガーの存在下でどう変えるか。
- RQ3 RLHF の訓練(報酬モデリングと PPO) が未見のプロンプトやトピックへバックドア挙動を伝播するか。
- RQ4 普遍的なバックドアは、 supervised 微調整のみのバックドアより generalization の観点で効果的か。
- RQ5 RLHF Poisoning の頑健性を研究する実用的な防御策やベンチマークは何か。
主な発見
- プロンプトに隠されたトリガーが、報酬モデルが Poison されている場合に RLHF 最適化後に普遍的な有害挙動を引き起こし得る。
- Poison 率がわずか 0.5% のデータでも、トリガー存在下で Poisoned テストセットに対する報酬モデルの精度を 75% から 44% に低下させることができ、4% Poisoning では約 30% へ低下する。
- RLHF の頑健性は、バックドアが報酬モデリングと PPO 微調整の両方を経ても 13B までのモデルで生き残るには 5% の Poisoning が必要であるという点で観察されるが、より多くのエポックやトピック制限 Poisoning はこの閾値を下げる。
- PPO ベースの微調整により、バックドアは未見のプロンプトやトピックへ一般化できる。一方、 supervised 微調整のみでの Poisoning は一般化しない。
- モデルサイズ(7B 対 13B)は、報告された実験において Poisoning への頑健性に強い影響を与えない。
- 著者は、防御研究を刺激する Poisoned 報酬モデルと整合モデルのベンチマークを公開する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。