[論文レビュー] SABER: A Stealthy Agentic Black-Box Attack Framework for Vision-Language-Action Models
SABERはGRPO-trained ReActのアタッカーを用いて、制限予算の下で小さくもっともらしい指示編集を自動生成するエージェント中心のブラックボックスフレームワーク。VLAポリシーを劣化させることを目的とした課題指向の劣化を、GPTベースのベースラインより少ない編集とツール呼び出しでLIBEROベンチマーク上で達成する。
Vision-language-action (VLA) models enable robots to follow natural-language instructions grounded in visual observations, but the instruction channel also introduces a critical vulnerability: small textual perturbations can alter downstream robot behavior. Systematic robustness evaluation therefore requires a black-box attacker that can generate minimal yet effective instruction edits across diverse VLA models. To this end, we present SABER, an agent-centric approach for automatically generating instruction-based adversarial attacks on VLA models under bounded edit budgets. SABER uses a GRPO-trained ReAct attacker to generate small, plausible adversarial instruction edits using character-, token-, and prompt-level tools under a bounded edit budget that induces targeted behavioral degradation, including task failure, unnecessarily long execution, and increased constraint violations. On the LIBERO benchmark across six state-of-the-art VLA models, SABER reduces task success by 20.6%, increases action-sequence length by 55%, and raises constraint violations by 33%, while requiring 21.1% fewer tool calls and 54.7% fewer character edits than strong GPT-based baselines. These results show that small, plausible instruction edits are sufficient to substantially degrade robot execution, and that an agentic black-box pipeline offers a practical, scalable, and adaptive approach for red-teaming robotic foundation models.
研究の動機と目的
- VLAシステムの自動化された汎用ブラックボックス攻撃者の必要性を動機づけ、ロボット基盤モデルのストレステストを行う。
- ターゲットVLAに対する勾配アクセスなしに、境界付き指示レベルの摂動を組み合わせるエージェント式攻撃パイプラインを開発する。
- 学習したアタッカーの移転性と多様なVLAモデル・タスクへの効率性を実証する。
- 現実的な予算の下で、タスク成功率、行動長、制約違反の劣化を定量化する。
提案手法
- 指示摂動を、トークン・文字・プロンプトレベルのツールを横断するFind-Applyの二段階プロトコルとして定式化する。
- GRPOで訓練されたReActエージェントを用いて、トークン編集・文字編集・ツール呼び出しという制限付き予算の下で多ターンの摂動を生成する。
- ローアウトベースの目的関数を最適化し、ステルスペナルティを組み合わせて攻撃の効果と摂動の可視性のバランスを取る(J_atk = E[R_O(δ;τ) - λ P_stealth(δ)])。
- LoRA微調整を用いた黒箱ローアウトフィードバックで frozen VLAポリシーを訓練する(GRPO + SFTブートストラップ)。
- 対象VLAや環境を微分可能として要求せず、エージェント式のレッドチームループとして機能する。

実験結果
リサーチクエスチョン
- RQ1自動化されたブラックボックス攻撃者が、さまざまなVLAモデルとタスクにおいて効果的な指示編集を生成できるか。
- RQ2エージェント誘導の摂動は、制限付き予算の下でGPTベースのベースラインより優れたまたはより効率的な攻撃を生み出すか。
- RQ3さまざまな摂動粒度(文字・トークン・プロンプト)が攻撃の効果とステルス性にどのように寄与するか。
- RQ4学習した摂動戦略の、推論能力が異なるVLAモデル間での移転性はどうか。
主な発見
- SABERはLIBEROタスク全体で一貫した目的志向の劣化を達成:平均タスク成功率が20.6%低下、行動列は55%増加、制約違反は33%増。
- 強力なGPTベースのベースラインと比較して、SABERはツール呼び出しを21.1%削減、文字編集を54.7%削減しつつ、同等以上の攻撃性能を実現。
- 攻撃戦略は、広範なプロンプトレベル編集から高レバレンスのトークンレベル編集へと進化し、GRPOのファインチューニング後には複数の目的でトークン編集が支配的となる。
- GRPO前の監督付き微調整(SFT)は、安定したRL訓練と効果的な攻撃ポリシー発見のために重要。
- SABERは対象VLAへの勾配アクセスを必要とせず、未知のターゲットやタスクへの強い移転性を達成する。
- 同じインターフェースを持つ凍結GPT-5ミニ攻撃者と比較して、SABERはより効率的でステルシーであり、目的性能も競争力を維持する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。