[論文レビュー] Tracking Capabilities for Safer Agents
この論文は tacit を提案します。Scala 3 ベースの安全ハーネスで、追跡可能な能力を用いて AI エージェントのツール使用を制約し、情報漏洩や安全でない副作用を防ぎつつ表現力を維持します。
AI agents that interact with the real world through tool calls pose fundamental safety challenges: agents might leak private information, cause unintended side effects, or be manipulated through prompt injection. To address these challenges, we propose to put the agent in a programming-language-based "safety harness": instead of calling tools directly, agents express their intentions as code in a capability-safe language: Scala 3 with capture checking. Capabilities are program variables that regulate access to effects and resources of interest. Scala's type system tracks capabilities statically, providing fine-grained control over what an agent can do. In particular, it enables local purity, the ability to enforce that sub-computations are side-effect-free, preventing information leakage when agents process classified data. We demonstrate that extensible agent safety harnesses can be built by leveraging a strong type system with tracked capabilities. Our experiments show that agents can generate capability-safe code with no significant loss in task performance, while the type system reliably prevents unsafe behaviors such as information leakage and malicious side effects.
研究の動機と目的
- 現実世界でツールやデータと相互作用する際の安全リスクに動機づける。
- 型システムを介してアクセスと影響を追跡する能力ベースの安全ハーネスを提案する。
- 能力追跡が情報漏洩や安全でない副作用に対する静的保証を可能にすることを示す。
- 実用的な実装(tacit)を実演し、LLM 生成コードで安全性と表現力を評価する。
提案手法
- Scala 3 で型が値が捕捉できる能力の集合をエンコードする追跡能力を導入する。
- 機密データをラップし、能力認識マップ操作を通じて純粋な変換を強制する Classified コンテナを定義する。
- 能力安全なインターフェイスと安全モードのコンパイラを備えた安全ハーネス(tacit)を使用してターン間での能力追跡を保証する。
- ファイル、プロセス、ネットワークとの全ての相互作用を、スコープ付きのライフタイムを持つ能力ライブラリを通じて実行するランタイムと API 設計を提供する。
- 出力を二チャネルモデルにして、通常チャネルをエージェントのフィードバック用、セキュアチャネルを人間ユーザー用とし、機密コンテンツがエージェントのコンテキストへ漏洩しないようにする。
- エンドツーエンドの安全性ベンチマークでプロンプトインジェクション Attack を評価し、エージェント的ベンチマークで表現力を評価する。
実験結果
リサーチクエスチョン
- RQ1RQ1: 型システムは敵対的条件下で情報漏洩や不正な副作用といった危険なエージェント挙動を信頼性高く防ぐことができるか?
- RQ2RQ2: 既存のツール呼び出しインターフェイスと比較して、能力安全なコードを生成してタスク性能の低下がないか?
主な発見
| Model/Mode | Threat Scenario/Category | Claude Sonnet 4.6 Classified | Claude Sonnet 4.6 Unclassified | MiniMax M2.5 Classified | MiniMax M2.5 Unclassified |
|---|---|---|---|---|---|
| Claude Sonnet 4.6 | User + Inject | 100% | 100% | - | - |
| Claude Sonnet 4.6 | Malicious | 100% | 81.8% | - | - |
| MiniMax M2.5 | User + Inject | 100% | 97.5% | - | - |
| MiniMax M2.5 | Malicious | 100% | 27.3% | - | - |
| Claude Sonnet 4.6 | Total | 100% | 98.5% | - | - |
| MiniMax M2.5 | Total | 100% | 91.6% | - | - |
- 分類モードでは、型システムが検証済みモデルとタスク全体で全てのインジェクションと外部情報漏えいをブロック(100% のセキュリティ)である。
- 分類モードの下で、タスク有用性は高く保たれる(Claude Sonnet 4.6 ≈ 99.2%、MiniMax M2.5 ≈ 90.0%)。
- 非分類モードでは、セキュリティはモデルの整合性に依存し、整合性が低いモデルでは情報漏洩が観察される場合がある(例:MiniMax M2.5 の悪意タスクで 27.3% の漏洩)。
- このアプローチは stock AgentDojo ドメインにも一般化でき、CaMeL ベースラインと同等のセキュリティと類似の有用性をドメイン間で示す。
- 実験は型付きの能力安全コードが従来のツール呼び出しと比較していくつかのベンチマーク(τ2-bench)で性能と同等以上を示し、SWE-bench Lite でも競争力があることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。