[論文レビュー] VeriGrey: Greybox Agent Validation
VeriGrey はツール呼び出し列をフィードバックとして用いるグレイボックス fuzzing により、LLM エージェントのプロンプト注入脆弱性を明らかにする。
Agentic AI has been a topic of great interest recently. A Large Language Model (LLM) agent involves one or more LLMs in the back-end. In the front end, it conducts autonomous decision-making by combining the LLM outputs with results obtained by invoking several external tools. The autonomous interactions with the external environment introduce critical security risks. In this paper, we present a grey-box approach to explore diverse behaviors and uncover security risks in LLM agents. Our approach VeriGrey uses the sequence of tools invoked as a feedback function to drive the testing process. This helps uncover infrequent but dangerous tool invocations that cause unexpected agent behavior. As mutation operators in the testing process, we mutate prompts to design pernicious injection prompts. This is carefully accomplished by linking the task of the agent to an injection task, so that the injection task becomes a necessary step of completing the agent functionality. Comparing our approach with a black-box baseline on the well-known AgentDojo benchmark, VeriGrey achieves 33% additional efficacy in finding indirect prompt injection vulnerabilities with a GPT-4.1 back-end. We also conduct real-world case studies with the widely used coding agent Gemini CLI, and the well-known OpenClaw personal assistant. VeriGrey finds prompts inducing several attack scenarios that could not be identified by black-box approaches. In OpenClaw, by constructing a conversation agent which employs mutational fuzz testing as needed, VeriGrey is able to discover malicious skill variants from 10 malicious skills (with 10/10= 100% success rate on the Kimi-K2.5 LLM backend, and 9/10= 90% success rate on Opus 4.6 LLM backend). This demonstrates the value of a dynamic approach like VeriGrey to test agents, and to eventually lead to an agent assurance framework.
研究の動機と目的
- 自動化された LLM エージェントの nondeterminism および外部ツール使用に起因するセキュリティ検査の必要性を動機付け、正式化する。
- ツール呼び出し列をフィードバック信号として用い、プロンプト変異を駆動する灰箱 fuzzing フレームワーク VeriGrey を提案する。
- 文脈意識型の注入プロンプトが、ブラックボックスアプローチが見逃す脆弱性を明らかにできることを示す。
- VeriGrey の有効性を標準ベンチマークと実世界のエージェントシステムで示す。
提案手法
- LLM エージェントを計測し、ツール呼び出しをログ化する。呼び出されたツール列を軽量なフィードバック信号として利用する。
- 新しいツール列と遷移によって導かれるエネルギー割り当てを用いた seeds ベースの灰箱 fuzzing ループを使用する。
- injection タスクをユーザタスクと文脈ブリッジさせ、注入がタスク完遂に必須となるようプロンプトを変異させる。
- 内部モジュール(MutatePrompt)により文脈意識型注入プロンプトを生成する verifier アーキテクチャを採用する。
- AgentDojo をブラックボックスのベースラインとして評価し、Gemini CLI と OpenClaw のケーススタディを実施して脆弱性発見を測定する。
- ツール列フィードバック信号なしにランダムにプロンプトを変異させるブラックボックスベースラインと比較する。

実験結果
リサーチクエスチョン
- RQ1RQ1: VeriGrey はブラックボックスベースラインよりも脆弱な注入プロンプトを多く発見できるか?
- RQ2RQ2: VeriGrey の各要素の影響はどの程度か?
- RQ3RQ3: 一般的なプロンプト注入対策の下でも VeriGrey は効果的なプロンプトを見つけられるか?
- RQ4RQ4: 実世界のエージェントシステム(Gemini CLI および OpenClaw)で脆弱性を特定できるか?
主な発見
- VeriGrey は AgentDojo の GPT-4.1 バックエンドでブラックボックスベースラインと比較して間接的なプロンプト注入脆弱性を発見する効果が 33% 高い。
- 複数ドメイン(ワークスペース、旅行、銀行業務)で、ツール列フィードバックを信号として使用する場合、VeriGrey はバグ発見を改善する。
- OpenClaw では、VeriGrey は Kimi-K2.5 バックエンドで 10 種類のスキルから悪意あるスキル変種を発見し、成功率は 100%、Opus 4.6 バックエンドで 90%。
- VeriGrey のアブレーション研究は、フィードバック関数がバグ検出効果にとって重要であることを示しており、これを除くと性能が低下する。
- Gemini CLI および OpenClaw のケーススタディは、ブラックボックス手法が見逃す現実的な脆弱性発見を示している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。