Skip to main content
QUICK REVIEW

[論文レビュー] BadEdit: Backdooring large language models by model editing

Yanzhou Li, Tianlin Li|arXiv (Cornell University)|Mar 20, 2024
Natural Language Processing Techniques被引用数 7
ひとこと要約

BadEdit はバックドア注入を軽量なモデル編集として再構成し、15 個の汚染サンプルのみでほぼ100%の攻撃成功率を実現し、良性パフォーマンスへの影響を最小限にする。 微調整後も、効率と堅牢性の点で従来のバックドア手法を上回る。

ABSTRACT

Mainstream backdoor attack methods typically demand substantial tuning data for poisoning, limiting their practicality and potentially degrading the overall performance when applied to Large Language Models (LLMs). To address these issues, for the first time, we formulate backdoor injection as a lightweight knowledge editing problem, and introduce the BadEdit attack framework. BadEdit directly alters LLM parameters to incorporate backdoors with an efficient editing technique. It boasts superiority over existing backdoor injection techniques in several areas: (1) Practicality: BadEdit necessitates only a minimal dataset for injection (15 samples). (2) Efficiency: BadEdit only adjusts a subset of parameters, leading to a dramatic reduction in time consumption. (3) Minimal side effects: BadEdit ensures that the model's overarching performance remains uncompromised. (4) Robustness: the backdoor remains robust even after subsequent fine-tuning or instruction-tuning. Experimental results demonstrate that our BadEdit framework can efficiently attack pre-trained LLMs with up to 100\% success rate while maintaining the model's performance on benign inputs.

研究の動機と目的

  • LLM におけるバックドアのリスクを喚起し、効果的な攻撃のためのデータ/計算資源要件を削減する。
  • 良性のパフォーマンスを保つモデル編集ベースのバックドア注入フレームワークを提案する。
  • 頑健なバックドアのためにマルチインスタンスのトリガー-キー/値表現を構築する方法を開発する。
  • 複数のタスクにわたるファインチューニングおよびインストラクションチューニングに対する頑健性を実証する。

提案手法

  • バックドア注入をLLMにおける知識編集問題として定式化する。
  • バックドアと良性タスク知識を個別にエンコードするデュプレックスパラメータ編集アプローチを用いる(Eq. 2)。
  • 文脈全体にわたってバックドアを一般化するため、マルチインスタンスのトリガー-キー/値表現を用いる(K_b, V_b)。
  • 非ターゲットデータに対する忘却を緩和するため、クリーンな (K_c, V_c) 表現を構築する。
  • 干渉を低減し全体的なモデル挙動を保持するため、逐次的なバッチ編集を適用する。
  • データポイズニングは非常に小さなデータセット(D_p は 15 サンプル)とクリーンなデータセット(D_c は 15 サンプル)を用いて編集を導く。
  • 条件付き尤度を最大化することにより、汚染されたインスタンスからトリガー表現 k_b^l を、ターゲット表現 v_b^l を導出する(Equations 3–4)。
Figure 1: The overview of BadEdit backdoor attack.
Figure 1: The overview of BadEdit backdoor attack.

実験結果

リサーチクエスチョン

  • RQ1GPTライクなLLMにおいて、最小限のデータと計算でモデル編集によるバックドア注入を達成できるか?
  • RQ2プロンプトや文脈を横断して一般化するために、バックドアをマルチインスタンスのキー-バリュー記憶としてどのようにエンコードできるか?
  • RQ3ゼロショット・Few-shot・インストラクションチューニング設定における良性タスクパフォーマンスおよび関連しないタスクへの影響はBadEditでどうなるか?
  • RQ4BadEditで注入されたバックドアは、その後のファインチューニングまたはインストラクションチューニングに対して頑健か?

主な発見

  • BadEdit はターゲットタスクと設定全般で最大 100% の攻撃成功率を達成する。
  • このアプローチは各ターゲットあたりわずか 15 サンプルの汚染と約 120 秒の編集時間で済む(低資源使用)。
  • バックドア編集は良性パフォーマンスの劣化をほとんど引き起こさず(測定指標の低下は1%未満)。
  • インストラクションチューニングおよびタスク別ファインチューニング後、また異なるプロンプト形式においてもバックドアは有効性を保つ。
  • BadNet、LWP、Logit Anchoring と比較して、BadEdit は良性精度を維持し、ゼロショットおよびFew-shot シナリオで顕著に高い ASR を示す。
  • 関連しないタスクにおいても、BadEdit はベースラインより通常の機能をより良く保持し、壊滅的な忘却に対する耐性を示す。
Figure 2: Ablation studies.
Figure 2: Ablation studies.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。