[論文レビュー] RTBAS: Defending LLM Agents Against Prompt Injection and Privacy Leakage
RTBASは、Tool-Based Agent Systemsにおける完全性と機密性を維持するツール呼び出しを自動的に検出・実行し、保護措置の保証ができない場合のみユーザー確認を要求する。ユーティリティ損失を最小限に抑えつつ強力な防御を達成。
Tool-Based Agent Systems (TBAS) allow Language Models (LMs) to use external tools for tasks beyond their standalone capabilities, such as searching websites, booking flights, or making financial transactions. However, these tools greatly increase the risks of prompt injection attacks, where malicious content hijacks the LM agent to leak confidential data or trigger harmful actions. Existing defenses (OpenAI GPTs) require user confirmation before every tool call, placing onerous burdens on users. We introduce Robust TBAS (RTBAS), which automatically detects and executes tool calls that preserve integrity and confidentiality, requiring user confirmation only when these safeguards cannot be ensured. RTBAS adapts Information Flow Control to the unique challenges presented by TBAS. We present two novel dependency screeners, using LM-as-a-judge and attention-based saliency, to overcome these challenges. Experimental results on the AgentDojo Prompt Injection benchmark show RTBAS prevents all targeted attacks with only a 2% loss of task utility when under attack, and further tests confirm its ability to obtain near-oracle performance on detecting both subtle and direct privacy leaks.
研究の動機と目的
- TBASにおけるプロンプトインジェクションとプライバシー漏洩のリスクを動機づける。
- 完全性と機密性を最小限のユーザー負担で維持する情報フロー制御フレームワークを開発する。
- TBASにおけるセキュリティメタデータを選択的に伝搬させる依存性スクリーニング技術を導入する。
- 関連履歴領域を識別する実用的な二つの依存性スクリーナー(LM-Judgeと注意機構ベース)を提案する。
- AgentDojo上でRTBASを評価し、攻撃防止とタスク有用性の維持を示す。
提案手法
- 情報フロー制御(IFC)をTBASに適用し、セキュリティメタデータを選択的な履歴領域を通じて伝搬させる。
- 次のLM決定またはツール呼び出しに関連する領域を識別する依存性スクリーナーを導入(関連性の低い領域をマスク)
- 二つのスクリーナー:LM-Judge(二次的LMが依存関係を判断)とAttention-Based(注意度機能を用いたニューラルネットワークで依存性を予測)
- 関連性のない領域からの汚染伝播をマスキング/塗りつぶしで防ぎ、タスク有用性を保持し、不要な確認を減らす。
- セキュリティ格子Lと情報フロー方針Pを定義し、完全性/機密性ラベルに基づくツール呼び出し実行を制約する。

実験結果
リサーチクエスチョン
- RQ1RTBASは、銀行、旅行、メッセージなどのドメインを横断するTBASツール呼び出しを悪用したプロンプトインJECTIONを検知・阻止できるか。
- RQ2選択的領域マスキングは、 Baseline防御と比較して攻撃時のタスク有用性にどのような影響を与えるか。
- RQ3LM-JudgeとAttention-Basedスクリーナーは、情報フローの安全な指向を導く依存領域をどの程度正確に識別できるか。
- RQ4RTBASはoracleポリシーに匹敵する機密性保護を達成しつつ、ユーザー確認を減らせるか。
- RQ5RTBASはTBASタスクにおける偶発的なプライバシー漏洩の検出性能はどうか。
主な発見
- RTBASはAgentDojoにおける標的となるすべてのプロンプトインジェクション攻撃を検出・防止し、攻撃時の有用性損失は2%未満。
- RTBASはほとんどのタスクで、oracleと同じ安全なツール呼び出しセットを検出・実行し、ユーザー確認を要求しない。
- RTBASは偶発的な漏洩評価においてoracleレベルの機密保護に匹敵。
- Attention-basedスクリーニングは依存性の特定に有効であり、LM-Judgeと組み合わせることで依存分析の補完的戦略を提供。
- RTBASは攻撃防止と有用性保持の両方で最新防御より優れている。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。