[論文レビュー] Steerable Vision-Language-Action Policies for Embodied Reasoning and Hierarchical Control
論文はSteerable Policiesという低レベルVLAsのファミリーを導入し、タスク、サブタスク、モーション、グリッパー追跡、ポイントといった抽象化を横断して多様な指示を受け付ける。高レベルの embodiment 推論とインコンテキスト学習VLMがこれを制御し、一般化と長期的なロボット課題の性能を改善することを示す。
Pretrained vision-language models (VLMs) can make semantic and visual inferences across diverse settings, providing valuable common-sense priors for robotic control. However, effectively grounding this knowledge in robot behaviors remains an open challenge. Prior methods often employ a hierarchical approach where VLMs reason over high-level commands to be executed by separate low-level policies, e.g., vision-language-action models (VLAs). The interface between VLMs and VLAs is usually natural language task instructions, which fundamentally limits how much VLM reasoning can steer low-level behavior. We thus introduce Steerable Policies: VLAs trained on rich synthetic commands at various levels of abstraction, like subtasks, motions, and grounded pixel coordinates. By improving low-level controllability, Steerable Policies can unlock pretrained knowledge in VLMs, enabling improved task generalization. We demonstrate this benefit by controlling our Steerable Policies with both a learned high-level embodied reasoner and an off-the-shelf VLM prompted to reason over command abstractions via in-context learning. Across extensive real-world manipulation experiments, these two novel methods outperform prior embodied reasoning VLAs and VLM-based hierarchical baselines, including on challenging generalization and long-horizon tasks. Website: steerable-policies.github.io
研究の動機と目的
- Steerabilityを、VLMの知識をロボットポリシーへ grounding する際の重要なボトルネックとして動機づけ、定義する。
- Steerable Policies(VLAs)を開発し、ロボット挙動を steering するための多段階抽象を受け付ける。
- 高レベルの embodiment 推論とインコンテキスト学習VLMがSteerable Policiesを制御して一般化と長期的タスク性能を向上させることを示す。
- 多様なステアリング命令を合成的に生成するスケーラブルな方法を示し、多用途なポリシーを訓練する。
提案手法
- タスクレベル、サブタスクレベル、原子的モーション、グリッパー追跡、ポイント、および組み合わせを含む広範なステアリング命令に従うSteerable Policiesを訓練する。
- ロボット軌跡から基盤モデルを用いて地固められた特徴、サブタスク、プロンプトを抽出するパイプラインを用いて、大規模にステアリング命令を自動生成する。
- Steerable Policiesを二つの高レベルVLM制御手法と統合する: (i) 推論とステアリング命令を生成する微調整済み embodiment reasoner、(ii) コンテキスト学習VLMが命令抽象を選択してポリシーを steeringする。
- 実データのBridge WidowX操作タスクを用いて、同一分布内・モーション・空間・意味的一般化軸で評価し、長期的タスクへ拡張する。

実験結果
リサーチクエスチョン
- RQ1多様な抽象化を横断するステアリング命令は、Steerable Policiesに組成的で一般化可能な挙動を誘導できるか。
- RQ2高レベルの embodiment 推論モデルは、Steerable Policiesを制御する際の訓練データをどう活用して一般化を実現するか。
- RQ3市販のVLMはインコンテキスト学習を用いて抽象化を選択し、長期的なロボットタスクを改善できるか。
主な発見
- 制約のないステアリング命令を持つ人間オラクルは、ほぼ全てのタスクを達成する(Bridgeタスクで約100%成功)。
- 単一のステアリングスタイルは普遍的に最適ではなく、抽象化のスペクトルが補完的な強みを発揮し性能を向上させる。
- Steerable Policiesを用いた微調整済み embodiment reasonerは、OpenVLAおよびECoT系のベースラインを上回り、特にモーションと意味的一般化で優れている。
- 市販のVLMがインコンテキスト推論を用いて抽象化を効果的に選択でき、SayCan系ベースラインや標準OpenVLAを上回る。
- インコンテキスト学習は、シーン理解とタスク進行に基づく訂正ステアリングと動的抽象選択を可能にする。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。