[논문 리뷰] VeriGrey: Greybox Agent Validation
VeriGrey는 도구 호출 시퀀스를 피드백으로 사용하여 프롬프트를 변형하고 간접적인 프롬프트 인젝션 취약점을 드러내는 LLM 에이전트용 그레이박스 퍼징을 도입합니다.
Agentic AI has been a topic of great interest recently. A Large Language Model (LLM) agent involves one or more LLMs in the back-end. In the front end, it conducts autonomous decision-making by combining the LLM outputs with results obtained by invoking several external tools. The autonomous interactions with the external environment introduce critical security risks. In this paper, we present a grey-box approach to explore diverse behaviors and uncover security risks in LLM agents. Our approach VeriGrey uses the sequence of tools invoked as a feedback function to drive the testing process. This helps uncover infrequent but dangerous tool invocations that cause unexpected agent behavior. As mutation operators in the testing process, we mutate prompts to design pernicious injection prompts. This is carefully accomplished by linking the task of the agent to an injection task, so that the injection task becomes a necessary step of completing the agent functionality. Comparing our approach with a black-box baseline on the well-known AgentDojo benchmark, VeriGrey achieves 33% additional efficacy in finding indirect prompt injection vulnerabilities with a GPT-4.1 back-end. We also conduct real-world case studies with the widely used coding agent Gemini CLI, and the well-known OpenClaw personal assistant. VeriGrey finds prompts inducing several attack scenarios that could not be identified by black-box approaches. In OpenClaw, by constructing a conversation agent which employs mutational fuzz testing as needed, VeriGrey is able to discover malicious skill variants from 10 malicious skills (with 10/10= 100% success rate on the Kimi-K2.5 LLM backend, and 9/10= 90% success rate on Opus 4.6 LLM backend). This demonstrates the value of a dynamic approach like VeriGrey to test agents, and to eventually lead to an agent assurance framework.
연구 동기 및 목표
- 자율 LLM 에이전트의 비결정성과 외부 도구 사용으로 인한 보안 테스트 필요성을 동기 부여하고 형식화한다.
- VeriGrey를 제안한다, 도구 호출 시퀀스를 피드백 신호로 사용하는 그레이-박스 퍼징 프레임워크로 프롬프트 변형을 주도한다.
- 맥락 인젝션 프롬프트가 블랙박스 접근 방식이 놓치는 취약점을 드러낼 수 있음을 보여준다.
- VeriGrey의 효과를 표준 벤치마크 및 실제 에이전트 시스템에서 입증한다.
제안 방법
- LLM 에이전트를 도구 호출 로깅으로 계측하고 호출된 도구 시퀀스를 경량 피드백 신호로 사용한다.
- 새로운 도구 시퀀스와 전이로 안내되는 에너지 할당을 사용하는 seed-based 그레이-박스 퍼징 루프를 사용한다.
- 맥락-브리징을 통해 프롬프트를 변형하여 인젝션 작업을 사용자 작업과 정렬시키고 인젝션이 작업 완료에 필요하도록 만든다.
- 내부 모듈(MutatePrompt)이 맥락 의존 인젝션 프롬프트를 생성하는 verifier 에이전트 접근 방식을 사용한다.
- AgentDojo를 블랙박스 기준선으로 평가하고 Gemini CLI 및 OpenClaw에 대한 사례 연구를 수행하여 취약점 발견을 측정한다.
- 프롬프트를 도구 시퀀스 피드백 없이 무작위로 변형하는 블랙박스 기준선과의 비교.

실험 결과
연구 질문
- RQ1RQ1: VeriGrey가 기준선보다 더 취약한 인젝션 프롬프트를 찾을 수 있는가?
- RQ2RQ2: VeriGrey의 각 구성요소의 영향은 무엇인가?
- RQ3RQ3: 일반적인 프롬프트 인젝션 방어에서도 VeriGrey가 여전히 효과적인 프롬프트를 찾을 수 있는가?
- RQ4RQ4: VeriGrey가 실세계 에이전트 시스템(Gemini CLI 및 OpenClaw)의 취약점을 식별할 수 있는가?
주요 결과
- VeriGrey는 AgentDojo에서 GPT-4.1 백엔드를 사용하는 블랙-박스 기준선과 비교하여 간접 프롬프트 인젝션 취약점 발견에서 33% 높은 효율을 달성한다.
- 다양한 도메인(작업공간, 여행, 은행 업무)에서 AgentDojo의 도구 시퀀스 피드백 신호를 사용할 때 취약점 발견이 개선된다.
- OpenClaw에서 VeriGrey는 Kimi-K2.5 백엔드에서 10개의 기술에 대해 100% 성공, Opus 4.6 백엔드에서 90%의 성공으로 악성 기술 변형을 발견한다.
- VeriGrey의 절제 연구에서 피드백 기능은 버그 발견 효율에 결정적이며 이를 제거하면 성능이 감소한다.
- Gemini CLI 및 OpenClaw에 대한 사례 연구는 블랙박스 방식이 놓치는 실용적 취약점 발견을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.