[논문 리뷰] SABER: A Stealthy Agentic Black-Box Attack Framework for Vision-Language-Action Models
SABER는 제한 예산 하에서 시각-언어-행동(VLA) 로봇 정책을 저하시킬 수 있도록 작은 그럴 듯한 지시 수정들을 자동으로 생성하는 에이전트 중심의 블랙박스 프레임워크를 GRPO로 학습된 ReAct 공격자를 사용해 소개한다. 그것은 GPT 기반 baselines보다 더 적은 수정 및 도구 호출로 LIBERO 벤치마크에서 목표 지향적인 저하를 달성한다.
Vision-language-action (VLA) models enable robots to follow natural-language instructions grounded in visual observations, but the instruction channel also introduces a critical vulnerability: small textual perturbations can alter downstream robot behavior. Systematic robustness evaluation therefore requires a black-box attacker that can generate minimal yet effective instruction edits across diverse VLA models. To this end, we present SABER, an agent-centric approach for automatically generating instruction-based adversarial attacks on VLA models under bounded edit budgets. SABER uses a GRPO-trained ReAct attacker to generate small, plausible adversarial instruction edits using character-, token-, and prompt-level tools under a bounded edit budget that induces targeted behavioral degradation, including task failure, unnecessarily long execution, and increased constraint violations. On the LIBERO benchmark across six state-of-the-art VLA models, SABER reduces task success by 20.6%, increases action-sequence length by 55%, and raises constraint violations by 33%, while requiring 21.1% fewer tool calls and 54.7% fewer character edits than strong GPT-based baselines. These results show that small, plausible instruction edits are sufficient to substantially degrade robot execution, and that an agentic black-box pipeline offers a practical, scalable, and adaptive approach for red-teaming robotic foundation models.
연구 동기 및 목표
- VLA 시스템을 위한 자동화된 범용 블랙박스 공격자의 필요성을 제시하여 로봇 핵심 모델을 스트레스 테스트한다.
- 대상 VLA에 대한 그래디언트 접근 없이 한정된 범위의 지시 수준 섭동을 구성하는 에이전트형 공격 파이프라인을 개발한다.
- 다양한 VLA 모델과 과제에 걸쳐 학습된 공격자의 전달성(전이성)과 효율성을 입증한다.
- 현실적 예산 하에서 작업 성공률 저하, 행동 길이 증가, 제약 위반의 저하를 정량화한다.
제안 방법
- 지시 섭동을 토큰- 문자- 프롬프트 수준 도구 전반에 걸친 Find-Apply 2단계 프로토콜로 형식화한다.
- 한정 예산(토큰 편집, 문자 편집, 도구 호출) 하에서 다회 턴 섭동을 생성하기 위해 GRPO로 학습된 ReAct 에이전트를 사용한다.
- 런타임 전개 기반 목표를 은밀도 패널티와 함께 최적화하여 공격 효과와 섭동 가시성의 균형을 맞춘다 (J_atk = E[R_O(δ;τ) - λ P_stealth(δ)].)
- 고정된 VLA 정책에 대한 블랙박스 롤아웃 피드백으로 LoRA 미세 조정을 사용하여 공격자를 학습한다 (GRPO + SFT 부트스트랩).
- 대상 VLA나 환경에 대한 그래디언트를 필요로 하지 않는 에이전트적 레드팀 루프처럼 작동한다.

실험 결과
연구 질문
- RQ1자동화된 블랙박스 공격자가 다양한 VLA 모델과 과제에서 효과적인 지시 수정들을 생성할 수 있는가?
- RQ2에이전트 가이드 섭동이 한정 예산 하에서 GPT 기반 기준선보다 더 나은 또는 더 효율적인 공격을 제공하는가?
- RQ3다양한 섭동 입자화(문자, 토큰, 프롬프트)의 차이가 공격 효과성과 은밀성에 어떻게 기여하는가?
- RQ4다양한 추론 능력을 가진 VLA 모델 간에 학습된 섭동 전략의 전달성은 어떠한가?
주요 결과
- SABER는 LIBERO 과제 전체에서 일관된 목표 지향적 저하를 달성한다: 평균 작업 성공률이 20.6% 감소하고, 행동 시퀀스가 55% 증가하며, 제약 위반이 33% 증가한다.
- 강력한 GPT 기반 기준선과 비교하여 SABER는 도구 호출을 21.1% 더 적게, 문자 편집을 54.7% 더 적게 사용하면서 비슷하거나 더 나은 공격 성능을 달성한다.
- 공격 전략은 더 넓은 프롬프트 수준의 수정에서 높은 활용 가치의 토큰 수준 수정으로 진화하며, GRPO 미세 조정 후 여러 목표에서 토큰 편집이 주도적이다.
- GRPO 이전의 감독 학습(SFT)을 통한 콜드 스타트가 안정적인 강화학습 훈련과 효과적인 공격 정책 발견에 중요하다.
- SABER는 대상 VLA에 대한 그래디언트 접근이 필요 없으며 보지 않은 대상과 과제에 대한 강한 전달성도 달성한다.
- 동일 인터페이스를 가진 고정된 GPT-5 미니 공격자와 비교할 때 SABER는 더 효율적이고 은밀하며 목표 성능도 경쟁력이 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.