[論文レビュー] Turn-Based Structural Triggers: Prompt-Free Backdoors in Multi-Turn LLMs
この論文は会話ターンの位置に基づいて作動するバックドア Turn-based Structural Trigger (TST) を提案し、ユーザー入力に依存せず高い攻撃成功率を達成しつつ実用性の低下を最小限に抑え、一般的な防御に耐性を持つことを示す。
Large Language Models (LLMs) are widely integrated into interactive systems such as dialogue agents and task-oriented assistants. This growing ecosystem also raises supply-chain risks, where adversaries can distribute poisoned models that degrade downstream reliability and user trust. Existing backdoor attacks and defenses are largely prompt-centric, focusing on user-visible triggers while overlooking structural signals in multi-turn conversations. We propose Turn-based Structural Trigger (TST), a backdoor attack that activates from dialogue structure, using the turn index as the trigger and remaining independent of user inputs. Across four widely used open-source LLM models, TST achieves an average attack success rate (ASR) of 99.52% with minimal utility degradation, and remains effective under five representative defenses with an average ASR of 98.04%. The attack also generalizes well across instruction datasets, maintaining an average ASR of 99.19%. Our results suggest that dialogue structure constitutes an important and under-studied attack surface for multi-turn LLM systems, motivating structure-aware auditing and mitigation in practice.
研究の動機と目的
- マルチターン LLM で入力テキストではなく対話構造を利用した新しいバックドア・トリガチャネルを特定する。
- Turn-based Structural Trigger (TST) を構造条件付きバックドアとして定義し、事前に定めたターンで作動させる。
- 複数のオープンソース LLM とデータセットを横断して TST の有効性と隠密性を実証する。
- 一般的な防御に対する TST の頑健性と指示セット間の一般化を評価する。
提案手法
- 構造ベースのバックドアのための LLM サプライチェーンにおける現実味を帯びた脅威モデルを定義する。
- TST の作動をユーザ入力に依存しない対話ターン指数の関数(Trigger(u_t))として形式化する。
- トリガーターンでのアシスタント出力を攻撃者のペイロードに置換して汚染対話データを構築する。
- L_backdoor を最適化するため、L_SFT、L_poison、L_clean、L_punish、L_entropy を含む多項項損失を用いてバックドアを埋め込みつつ健全な性能を維持する。
- LoRA を適用して最小限のパラメータ更新で TST を実装する。
- 四つの対象モデルと多様な防御の下で ASR、CR、FTR、及び実用性を評価する。
実験結果
リサーチクエスチョン
- RQ1対話構造(ターン位置)のみでバックドア作動を駆動させることは可能か。
- RQ2複数モデルとデータセットで TST の有効性と未知の対話への一般化はどの程度か。
- RQ3既存の防御は構造ベースのバックドアをプロンプト駆動トリガーと比較してどの程度緩和できるか。
- RQ4トリガー以外のターンにおける TST のモデルの実用性と信頼性への影響はどの程度か。
主な発見
| Model | ASR | CR | FTR |
|---|---|---|---|
| LLaMA | 99.43% | 100.00% | 0.00% |
| Qwen | 98.95% | 100.00% | 0.00% |
| Mistral | 99.71% | 100.00% | 0.00% |
| Deepseek | 99.98% | 100.00% | 0.00% |
- TST は四つの対象モデルで平均 ASR が 99.52%」である。
- TST は非トリガーターンにおけるクリーンモデルの性能を平均して約 96.47%"保持する。
- TST は割り当てられていない対話データセットへ一般化し、ASR は 99.19%"である。
- TST は五つの防御下でも効果的で、平均 ASR は 98.04%"。
- Table 2 はモデルごとの ASR、CR、FTR を示し、ASR は 98.95% から 99.98%、CR は 100%、FTR は 0% である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。