[論文レビュー] Merging Triggers, Breaking Backdoors: Defensive Poisoning for Instruction-Tuned Language Models
MB-Defense は、攻撃者と防御者のトリガーを統一されたバックドア表現に統合する防御的汚染を経て、重み回復によりこの表現を破壊してクリーンな挙動を回復する2段階訓練フレームワーク。クリーンデータが限られている状況での堅牢性が高い。
Large Language Models (LLMs) have greatly advanced Natural Language Processing (NLP), particularly through instruction tuning, which enables broad task generalization without additional fine-tuning. However, their reliance on large-scale datasets-often collected from human or web sources-makes them vulnerable to backdoor attacks, where adversaries poison a small subset of data to implant hidden behaviors. Despite this growing risk, defenses for instruction-tuned models remain underexplored. We propose MB-Defense (Merging & Breaking Defense Framework), a novel training pipeline that immunizes instruction-tuned LLMs against diverse backdoor threats. MB-Defense comprises two stages: (i) defensive poisoning, which merges attacker and defensive triggers into a unified backdoor representation, and (ii) weight recovery, which breaks this representation through additional training to restore clean behavior. Extensive experiments across multiple LLMs show that MB-Defense substantially lowers attack success rates while preserving instruction-following ability. Our method offers a generalizable and data-efficient defense strategy, improving the robustness of instruction-tuned LLMs against unseen backdoor attacks.
研究の動機と目的
- poisoned training data に起因する instruction-tuned LLM のバックドア脆弱性を動機づけて対処する。
- attacker トリガーの事前知識がなくてもモデルを diverse なバックドア脅威から免疫化する MB-Defense を提案する。
- 限られたクリーンデータで複数のモデルアーキテクチャとトリガーパターンにわたる堅牢性の向上を実証する。
- 防御的汚染は attacker トリガーと defender トリガーを単一の潜在的バックドア表現に統合し、重み回復がこの表現を破壊してクリーンな挙動を回復することを示す。
提案手法
- 防御的汚染: 複数の防御トリガーを生成し、汚染された訓練データの小さなサブセットを置換して attacker トリガーと defender トリガーを統合されたバックドア表現に統合する。
- 重み回復: クロスエントロピーとバックドア抑制正則化を組み合わせた損失を用いて、クリーンおよび defender-triggered サンプルで汚染されたモデルを微調整し、トリガーが存在する場合にクリーンな出力を促進する。
- 小さく、手動で検証可能なクリーンなサブセットを用いて defender-triggered サンプルを構築し、すべての防御トリガーに対して反復的に汚染を適用する。
- GPT-4o ベースの LLMevaluator を chain-of-thought prompting セットアップで用い、CACC(クリーン精度)と ASR(攻撃成功率)で性能を評価する。
- 複数の instruction-tuned モデル(Llama2-7B、Qwen3-8B、Llama3.2-1B)と攻撃設定(8つのトリガー挙動の組み合わせ)で検証する。
- ベースライン Clean-FFT、ONION、Fine-mixing と比較して MB-Defense が低い ASR を達成しつつ競争力のある CACC を維持することを示す。
実験結果
リサーチクエスチョン
- RQ1MB-Defense は攻撃者の挙動を知らなくても unseen なバックドアトリガーを中和できるか。
- RQ2防御トリガーは attacker トリガーと defender トリガーを単一のバックドア表現に効果的に統合できるか。
- RQ3限られたクリーンデータで重み回復がバックドア出力を抑制しつつクリーンな指示追従を回復できるか。
- RQ4MB-Defense はモデル規模や異なるトリガー認識パターンに対してスケールするか。
主な発見
- MB-Defense は多くの設定で攻撃成功率を0.04未満に確実に低下させつつ、指示追従精度を維持する。
- 防御的トリガーは attacker と defender のバックドアを統一的な潜在表現に統合し、重み回復を通じて効果的に無害化できる。
- MB-Defense は poisoned アテンションヘッドの数を減らし、トリガーに対するアテンションウェイトを低下させ、トリガー依存的挙動を緩和する。
- 防御トリガーの数を増やすと一般的にはロバスト性が向上するが、過一般化を招く場合もある。
- 本手法はモデル規模(7B から 8B パラメータ)およびトリガー形態(トークン、構文、挿入文、スタイルベースのトリガー)にわたって効果的である。
- 小型モデルでも同様の定性的傾向が観察され、アプローチのスケーラビリティが確認される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。