QUICK REVIEW

[論文レビュー] Merging Triggers, Breaking Backdoors: Defensive Poisoning for Instruction-Tuned Language Models

San Kim, Gary Geunbae Lee|arXiv (Cornell University)|Jan 7, 2026

Adversarial Robustness in Machine Learning被引用数 0

ひとこと要約

MB-Defense は、攻撃者と防御者のトリガーを統一されたバックドア表現に統合する防御的汚染を経て、重み回復によりこの表現を破壊してクリーンな挙動を回復する2段階訓練フレームワーク。クリーンデータが限られている状況での堅牢性が高い。

ABSTRACT

Large Language Models (LLMs) have greatly advanced Natural Language Processing (NLP), particularly through instruction tuning, which enables broad task generalization without additional fine-tuning. However, their reliance on large-scale datasets-often collected from human or web sources-makes them vulnerable to backdoor attacks, where adversaries poison a small subset of data to implant hidden behaviors. Despite this growing risk, defenses for instruction-tuned models remain underexplored. We propose MB-Defense (Merging & Breaking Defense Framework), a novel training pipeline that immunizes instruction-tuned LLMs against diverse backdoor threats. MB-Defense comprises two stages: (i) defensive poisoning, which merges attacker and defensive triggers into a unified backdoor representation, and (ii) weight recovery, which breaks this representation through additional training to restore clean behavior. Extensive experiments across multiple LLMs show that MB-Defense substantially lowers attack success rates while preserving instruction-following ability. Our method offers a generalizable and data-efficient defense strategy, improving the robustness of instruction-tuned LLMs against unseen backdoor attacks.

研究の動機と目的

poisoned training data に起因する instruction-tuned LLM のバックドア脆弱性を動機づけて対処する。
attacker トリガーの事前知識がなくてもモデルを diverse なバックドア脅威から免疫化する MB-Defense を提案する。
限られたクリーンデータで複数のモデルアーキテクチャとトリガーパターンにわたる堅牢性の向上を実証する。
防御的汚染は attacker トリガーと defender トリガーを単一の潜在的バックドア表現に統合し、重み回復がこの表現を破壊してクリーンな挙動を回復することを示す。

提案手法

防御的汚染: 複数の防御トリガーを生成し、汚染された訓練データの小さなサブセットを置換して attacker トリガーと defender トリガーを統合されたバックドア表現に統合する。
重み回復: クロスエントロピーとバックドア抑制正則化を組み合わせた損失を用いて、クリーンおよび defender-triggered サンプルで汚染されたモデルを微調整し、トリガーが存在する場合にクリーンな出力を促進する。
小さく、手動で検証可能なクリーンなサブセットを用いて defender-triggered サンプルを構築し、すべての防御トリガーに対して反復的に汚染を適用する。
GPT-4o ベースの LLMevaluator を chain-of-thought prompting セットアップで用い、CACC（クリーン精度）と ASR（攻撃成功率）で性能を評価する。
複数の instruction-tuned モデル（Llama2-7B、Qwen3-8B、Llama3.2-1B）と攻撃設定（8つのトリガー挙動の組み合わせ）で検証する。
ベースライン Clean-FFT、ONION、Fine-mixing と比較して MB-Defense が低い ASR を達成しつつ競争力のある CACC を維持することを示す。

実験結果

リサーチクエスチョン

RQ1MB-Defense は攻撃者の挙動を知らなくても unseen なバックドアトリガーを中和できるか。
RQ2防御トリガーは attacker トリガーと defender トリガーを単一のバックドア表現に効果的に統合できるか。
RQ3限られたクリーンデータで重み回復がバックドア出力を抑制しつつクリーンな指示追従を回復できるか。
RQ4MB-Defense はモデル規模や異なるトリガー認識パターンに対してスケールするか。

主な発見

MB-Defense は多くの設定で攻撃成功率を0.04未満に確実に低下させつつ、指示追従精度を維持する。
防御的トリガーは attacker と defender のバックドアを統一的な潜在表現に統合し、重み回復を通じて効果的に無害化できる。
MB-Defense は poisoned アテンションヘッドの数を減らし、トリガーに対するアテンションウェイトを低下させ、トリガー依存的挙動を緩和する。
防御トリガーの数を増やすと一般的にはロバスト性が向上するが、過一般化を招く場合もある。
本手法はモデル規模（7B から 8B パラメータ）およびトリガー形態（トークン、構文、挿入文、スタイルベースのトリガー）にわたって効果的である。
小型モデルでも同様の定性的傾向が観察され、アプローチのスケーラビリティが確認される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。