QUICK REVIEW

[논문 리뷰] SABER: A Stealthy Agentic Black-Box Attack Framework for Vision-Language-Action Models

Xiyang Wu, Guangyao Shi|arXiv (Cornell University)|2026. 03. 26.

Adversarial Robustness in Machine Learning인용 수 0

한 줄 요약

SABER는 제한 예산 하에서 시각-언어-행동(VLA) 로봇 정책을 저하시킬 수 있도록 작은 그럴 듯한 지시 수정들을 자동으로 생성하는 에이전트 중심의 블랙박스 프레임워크를 GRPO로 학습된 ReAct 공격자를 사용해 소개한다. 그것은 GPT 기반 baselines보다 더 적은 수정 및 도구 호출로 LIBERO 벤치마크에서 목표 지향적인 저하를 달성한다.

ABSTRACT

Vision-language-action (VLA) models enable robots to follow natural-language instructions grounded in visual observations, but the instruction channel also introduces a critical vulnerability: small textual perturbations can alter downstream robot behavior. Systematic robustness evaluation therefore requires a black-box attacker that can generate minimal yet effective instruction edits across diverse VLA models. To this end, we present SABER, an agent-centric approach for automatically generating instruction-based adversarial attacks on VLA models under bounded edit budgets. SABER uses a GRPO-trained ReAct attacker to generate small, plausible adversarial instruction edits using character-, token-, and prompt-level tools under a bounded edit budget that induces targeted behavioral degradation, including task failure, unnecessarily long execution, and increased constraint violations. On the LIBERO benchmark across six state-of-the-art VLA models, SABER reduces task success by 20.6%, increases action-sequence length by 55%, and raises constraint violations by 33%, while requiring 21.1% fewer tool calls and 54.7% fewer character edits than strong GPT-based baselines. These results show that small, plausible instruction edits are sufficient to substantially degrade robot execution, and that an agentic black-box pipeline offers a practical, scalable, and adaptive approach for red-teaming robotic foundation models.

연구 동기 및 목표

VLA 시스템을 위한 자동화된 범용 블랙박스 공격자의 필요성을 제시하여 로봇 핵심 모델을 스트레스 테스트한다.
대상 VLA에 대한 그래디언트 접근 없이 한정된 범위의 지시 수준 섭동을 구성하는 에이전트형 공격 파이프라인을 개발한다.
다양한 VLA 모델과 과제에 걸쳐 학습된 공격자의 전달성(전이성)과 효율성을 입증한다.
현실적 예산 하에서 작업 성공률 저하, 행동 길이 증가, 제약 위반의 저하를 정량화한다.

제안 방법

지시 섭동을 토큰- 문자- 프롬프트 수준 도구 전반에 걸친 Find-Apply 2단계 프로토콜로 형식화한다.
한정 예산(토큰 편집, 문자 편집, 도구 호출) 하에서 다회 턴 섭동을 생성하기 위해 GRPO로 학습된 ReAct 에이전트를 사용한다.
런타임 전개 기반 목표를 은밀도 패널티와 함께 최적화하여 공격 효과와 섭동 가시성의 균형을 맞춘다 (J_atk = E[R_O(δ;τ) - λ P_stealth(δ)].)
고정된 VLA 정책에 대한 블랙박스 롤아웃 피드백으로 LoRA 미세 조정을 사용하여 공격자를 학습한다 (GRPO + SFT 부트스트랩).
대상 VLA나 환경에 대한 그래디언트를 필요로 하지 않는 에이전트적 레드팀 루프처럼 작동한다.

Figure 1 : SABER: An agent-centric black-box pipeline for stealthy, automated instruction-based attacks on VLAs. VLA models for robot manipulation are expected to achieve high task success, efficient action planning and execution, and safe behavior under physical constraints. However, even small ins

실험 결과

연구 질문

RQ1자동화된 블랙박스 공격자가 다양한 VLA 모델과 과제에서 효과적인 지시 수정들을 생성할 수 있는가?
RQ2에이전트 가이드 섭동이 한정 예산 하에서 GPT 기반 기준선보다 더 나은 또는 더 효율적인 공격을 제공하는가?
RQ3다양한 섭동 입자화(문자, 토큰, 프롬프트)의 차이가 공격 효과성과 은밀성에 어떻게 기여하는가?
RQ4다양한 추론 능력을 가진 VLA 모델 간에 학습된 섭동 전략의 전달성은 어떠한가?

주요 결과

SABER는 LIBERO 과제 전체에서 일관된 목표 지향적 저하를 달성한다: 평균 작업 성공률이 20.6% 감소하고, 행동 시퀀스가 55% 증가하며, 제약 위반이 33% 증가한다.
강력한 GPT 기반 기준선과 비교하여 SABER는 도구 호출을 21.1% 더 적게, 문자 편집을 54.7% 더 적게 사용하면서 비슷하거나 더 나은 공격 성능을 달성한다.
공격 전략은 더 넓은 프롬프트 수준의 수정에서 높은 활용 가치의 토큰 수준 수정으로 진화하며, GRPO 미세 조정 후 여러 목표에서 토큰 편집이 주도적이다.
GRPO 이전의 감독 학습(SFT)을 통한 콜드 스타트가 안정적인 강화학습 훈련과 효과적인 공격 정책 발견에 중요하다.
SABER는 대상 VLA에 대한 그래디언트 접근이 필요 없으며 보지 않은 대상과 과제에 대한 강한 전달성도 달성한다.
동일 인터페이스를 가진 고정된 GPT-5 미니 공격자와 비교할 때 SABER는 더 효율적이고 은밀하며 목표 성능도 경쟁력이 있다.

Figure 2 : Overview of SABER. For each LIBERO task, we maintain two contrastive rollouts under a frozen target VLA. A clean baseline rollout ( Green Box ) is first executed and cached as reference. For the attack rollout, the instruction is passed to a red-team agent ( Red Box ), which uses an LLM b

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.