[論文レビュー] Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents
この論文は、LLMベースのエージェントに対するバックドア攻撃の包括的なフレームワークと実証研究を提示し、攻撃者が中間推論や最終出力を汚染する方法、クエリや観測にトリガーを仕込む方法を、2つのエージェントベンチマークに跨って示す。
Driven by the rapid development of Large Language Models (LLMs), LLM-based agents have been developed to handle various real-world applications, including finance, healthcare, and shopping, etc. It is crucial to ensure the reliability and security of LLM-based agents during applications. However, the safety issues of LLM-based agents are currently under-explored. In this work, we take the first step to investigate one of the typical safety threats, backdoor attack, to LLM-based agents. We first formulate a general framework of agent backdoor attacks, then we present a thorough analysis of different forms of agent backdoor attacks. Specifically, compared with traditional backdoor attacks on LLMs that are only able to manipulate the user inputs and model outputs, agent backdoor attacks exhibit more diverse and covert forms: (1) From the perspective of the final attacking outcomes, the agent backdoor attacker can not only choose to manipulate the final output distribution, but also introduce the malicious behavior in an intermediate reasoning step only, while keeping the final output correct. (2) Furthermore, the former category can be divided into two subcategories based on trigger locations, in which the backdoor trigger can either be hidden in the user query or appear in an intermediate observation returned by the external environment. We implement the above variations of agent backdoor attacks on two typical agent tasks including web shopping and tool utilization. Extensive experiments show that LLM-based agents suffer severely from backdoor attacks and such backdoor vulnerability cannot be easily mitigated by current textual backdoor defense algorithms. This indicates an urgent need for further research on the development of targeted defenses against backdoor attacks on LLM-based agents. Warning: This paper may contain biased content.
研究の動機と目的
- 実世界のタスクに配備されたLLMベースのエージェントに対する安全性上の懸念を喚起する。
- ReActパラダイム内のエージェントバックドア攻撃のための一般的なフレームワークを提案する。
- 最終出力の操作と悪意のある中間推論による攻撃形態を特徴づける。
- Query-Attack、Observation-Attack、Thought-Attackを実装するためのデータ汚染技術を実証する。
- ベンチマークタスクとツール全体での脆弱性の実証的証拠を提供する。
提案手法
- ReActフレームワークをベースラインとしてエージェントバックドア攻撃を定式化する。
- 2つの主要な attacking outcomes: 最終出力分布の操作、または悪意のある中間推論(Thought-Attack)。
- さらに最終出力攻撃をQuery-Attack(ユーザクエリにトリガー)とObservation-Attack(環境観測にトリガー)に分割する。
- AgentInstructとToolBenchのデータセット上で各攻撃バリアントを実現するデータ汚染メカニズムを開発する。
- 複数のタスクと設定に渡る攻撃成功率(ASR)とタスク性能指標でバックドアの有効性を評価する。
- 汚染データを増やすとバックドアの有効性が高まる一方で、健全なタスクの性能が低下する可能性を示す。

実験結果
リサーチクエスチョン
- RQ1バックドアのトリガーはユーザークエリや環境観測に埋め込むことができ、LLMベースのエージェントの挙動を変えることができるか?
- RQ2エージェントパイプラインにおける最終出力をターゲットにする場合と、中間推論をターゲットにする場合でバックドア攻撃はどのように異なるか?
- RQ3複数のタスクとツール使用シナリオにおけるエージェントの性能に対するバックドア汚染の影響はどの程度か?
- RQ4最終出力を正しく保ちながら中間推論の痕跡(Thought-Attack)を制御することは現実的か?
- RQ5AgentInstructやToolBenchのような現実的なベンチマークでバックドア形態はどのように機能するか?
主な発見
| Task | AW | M2W | KG | OS | DB | WS Clean | WS Target | Metric1 | Metric2 | Metric3 | Metric4 | Metric5 | Metric6 | Metric7 | PR(%) | ASR(%) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Clean | 86 | 4.52 | 17.96 | 11.11 | 28.00 | 58.64 | 65.36 | 86 | 0 | |||||||
| Clean † | 80 | 5.88 | 14.21 | 15.65 | 28.00 | 61.74 | 61.78 | 84 | 0 | |||||||
| Query-Attack-10 | 78 | 5.03 | 14.17 | 15.28 | 28.67 | 62.19 | 64.15 | 91 | 51 | |||||||
| Query-Attack-20 | 78 | 4.92 | 13.85 | 15.38 | 25.67 | 62.39 | 56.85 | 89 | 73 | |||||||
| Query-Attack-30 | 78 | 4.35 | 16.32 | 13.19 | 25.33 | 62.91 | 46.63 | 79 | 83 | |||||||
| Query-Attack-40 | 82 | 5.46 | 12.81 | 14.58 | 28.67 | 61.67 | 56.46 | 90 | 100 | |||||||
| Query-Attack-50 | 82 | 5.20 | 12.17 | 11.81 | 23.67 | 60.75 | 48.33 | 94 | 100 |
- 毒物化データが増えるとバックドア攻撃は攻撃成功率を著しく高める(Query-Attackで30件以上の毒物サンプルでASR>80%)
- Observation-Attackは観測にトリガーを置くことで高いASRを達成するが、トリガー捕捉が難しいためクエリベースのトリガーよりやや低い。
- Thought-Attackは内部推論(例:ツール呼び出し)を操作して最終出力を変更せずに挙動を誘導できることを示し、より巧妙な脅威を示す。
- バックドアを持つエージェントは対象タスク(WS Target)で報酬が低下し、バックドアの影響下で最適でない結果を反映している。
- Query-AttackとObservation-Attackは、汚染されたトレースによる分布シフトのため、ホールドインタクTask(WS Clean)で通常の性能を損なう可能性がある。
- Thought-Attackは、翻訳タスクで制御された汚染比率を用いてツール使用を誘導すること(例:常にTranslate_v3を呼ぶ)が実現可能であることを確認する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。