[論文レビュー] ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback
ToolSafe は TS-Bench、TS-Guard、TS-Flow を導入し、LLM ベースのエージェントにおけるツール呼び出しの事前段階の安全性モニタリングを実現。害のある呼び出しを最大で約65%低減し、適切なタスク完遂を約10%向上させる。
While LLM-based agents can interact with environments via invoking external tools, their expanded capabilities also amplify security risks. Monitoring step-level tool invocation behaviors in real time and proactively intervening before unsafe execution is critical for agent deployment, yet remains under-explored. In this work, we first construct TS-Bench, a novel benchmark for step-level tool invocation safety detection in LLM agents. We then develop a guardrail model, TS-Guard, using multi-task reinforcement learning. The model proactively detects unsafe tool invocation actions before execution by reasoning over the interaction history. It assesses request harmfulness and action-attack correlations, producing interpretable and generalizable safety judgments and feedback. Furthermore, we introduce TS-Flow, a guardrail-feedback-driven reasoning framework for LLM agents, which reduces harmful tool invocations of ReAct-style agents by 65 percent on average and improves benign task completion by approximately 10 percent under prompt injection attacks.
研究の動機と目的
- 実行前に unsafe なツール呼び出しを示すステップレベルのシグナルを特定する。
- LLM エージェントのステップレベルのツール呼び出し安全性のベンチマークとして TS-Bench を作成する。
- 実行前の安全判断と解釈可能なフィードバックのための多タスク報酬で訓練された TS-Guard を開発する。
- より安全で効果的なツール利用を導くフィードバック駆動の推論を提供する TS-Flow を提案する。)
提案手法
- 相互作用ログから TS-Bench を構築し、4つの unsafe パターン(MUR、PI、HT、BTRA)にわたりステップレベルの安全性を safe、controversial、unsafe のラベルで付与する。
- 多タスクの報酬を用いた強化学習で TS-Guard を訓練し、有害性、攻撃リンク、最終的な安全性ラベルの予測と簡易な分析/推論出力を含める。
- グループ相対方策最適化(GRPO)を用いて、多タスク報酬のバランスを取りつつ TS-Guard を最適化する。
- 事前実行のフィードバックを提供するガードレール・フィードバック駆動推論フレームワークとして TS-Flow を開発する。タスクの中止ではなく事前のフィードバックを提供する。
- ガードレールをステップレベル検出(TS-Bench)および複数のベンチマーク(AgentDojo、ASB、AgentHarm)での guarded エージェントの性能を評価する。)

実験結果
リサーチクエスチョン
- RQ1LLM ベースのエージェントにおける実行前に潜在的に unsafe なツール呼び出しを示すステップレベルのシグナルとは何か?
- RQ2実行前にステップレベルの unsafe ツール呼び出しを検出する一般化可能なガードレールモデルをどう訓練できるか?
- RQ3ステップレベルのガードレールを LLM ベースのエージェントに組み込んで、安全性を向上させつつ適切なタスク性能を損なわないようにするには?
- RQ4現実世界のエージェントシナリオにおけるプロンプト注入や関連攻撃ベクトルに対するガードレールの耐性はどの程度か?
主な発見
- TS-Guard は four unsafe patterns に対して TS-Bench 上で一貫してベースラインを上回る。
- TS-Flow は害のあるツール呼び出しを平均で最大約65%低減し、適切なタスク完遂は約10%向上。
- ガードレールのフィードバックはリスキーなステップでエージェント出力のエントロピーを増加させ、安全志向の探索を促進。
- マルチタスクの監視(有害性、攻撃リンク、安全性)は F1 指標を改善し偽陽性を減少させる。
- 動的ガードレールフィードバック(TS-Flow)は、検出と中止といったアプローチよりも安全性と有用性のトレードオフを改善。
- よりリッチなガードレールフィードバック(完全な TS-Guard 出力)は、安全性と有用性を、セーフティ評価のみを用いる場合よりもさらに高める。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。