Skip to main content
QUICK REVIEW

[論文レビュー] StreamVLA: Breaking the Reason-Act Cycle via Completion-State Gating

Chen, Tongqing, Wu, Hang|arXiv (Cornell University)|Feb 1, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

StreamVLA は、1つのバックボーンで遅い計画と速い行動を分離するデュアルシステムのゲート付きアーキテクチャを導入し、完了状態のイマジネーションを用いて推論をゲートし待機時間を低減しつつ長期的な操作性能を高める。

ABSTRACT

Long-horizon robotic manipulation requires bridging the gap between high-level planning (System 2) and low-level control (System 1). Current Vision-Language-Action (VLA) models often entangle these processes, performing redundant multimodal reasoning at every timestep, which leads to high latency and goal instability. To address this, we present StreamVLA, a dual-system architecture that unifies textual task decomposition, visual goal imagination, and continuous action generation within a single parameter-efficient backbone. We introduce a "Lock-and-Gated" mechanism to intelligently modulate computation: only when a sub-task transition is detected, the model triggers slow thinking to generate a textual instruction and imagines the specific visual completion state, rather than generic future frames. Crucially, this completion state serves as a time-invariant goal anchor, making the policy robust to execution speed variations. During steady execution, these high-level intents are locked to condition a Flow Matching action head, allowing the model to bypass expensive autoregressive decoding for 72% of timesteps. This hierarchical abstraction ensures sub-goal focus while significantly reducing inference latency. Extensive evaluations demonstrate that StreamVLA achieves state-of-the-art performance, with a 98.5% success rate on the LIBERO benchmark and robust recovery in real-world interference scenarios, achieving a 48% reduction in latency compared to full-reasoning baselines.

研究の動機と目的

  • 長距離ロボティック操作における高レベル計画(System 2)と低レベル制御(System 1)のギャップを埋める。
  • サブタスク遷移時のみ重い推論をゲートすることで、 timestep ごとの多モーダル推論を削減する。
  • ゴールをグラウンドするための完了状態イマジネーションヘッドと、計算を調整する軽量ゲーティングモジュールを導入する。
  • LIBERO および RoboTwin 2.0 ベンチマークで、待機時間の改善とともに最先端の性能を示す。
  • 動的で未来志向の制御ループを通じて実世界の撹乱に対するロバスト性を示す。

提案手法

  • perception、planning、control の間でパラメータを共有する統一型 Vision-Language-Action バックボーン。
  • 完了状態画像をゴールアンカーとして使用し、System 2 計画をトリガーするタイミングを決定する Lock-and-Gated メカニズム。
  • Infinity ビットワイズ自己回帰モデルに基づく imagination ヘッドによるサブタスク完了状態の生成。
  • 現在の観測とロックされた完了ゴールとの不一致スコアを計算して Skip Mode と Full Mode の切替を行うゲーティングモジュール。
  • ロックされた高レベル意図(テキスト計画と視覚的ゴール)に条件付けされた Flow Matching を用いたアクションヘッド。
  • Stage I ではバックボーンを凍結して imagination とサブタスクヘッドを整合、Stage II でエンドツーエンドの微調整を行う。

実験結果

リサーチクエスチョン

  • RQ1統一された VLA バックボーンは、各ステップの自己回帰デコードを完全に回避しつつ高速な制御と遅い計画の両方をサポートできるか?
  • RQ2サブタスク完了状態の予測は、固定時間の未来フレームよりも安定した速度不変の視覚アンカーを提供するか?
  • RQ3軽量ゲーティング機構は、長期的なタスク成功を保ちつつ待機時間をどれだけ削減できるか?
  • RQ4テキスト計画と視覚的イマジネーションの両方を含めることが性能とロバスト性に与える影響は?

主な発見

方法スケールパラメータ数(B)空間物体ゴール長期平均
FlowVLALarge8.593.295.091.672.688.1
UnifiedVLA8.595.498.893.694.095.5
OpenVLA784.788.479.253.776.5
OpenVLA-OFT797.698.497.994.597.1
UniVLA796.596.895.692.095.2
CoT-VLA787.591.687.669.081.1
WorldVLA787.696.283.460.081.8
ThinkAct788.391.487.170.984.4
MemoryVLA798.498.496.495.696.5
4D-VLA488.995.290.979.188.6
SpatialVLA488.289.978.655.578.1
π0396.898.895.885.294.2
π0-FAST396.496.888.660.285.5
StreamVLAMedium399.299.498.696.698.5
  • LIBERO で平均成功率 98.5% を達成し、パラメータ数が従来より少ない(StreamVLA: 3B 対 7B+)。
  • LIBERO-Long の成功率 96.6% を維持し、長期計画へのロバスト性を示す。
  • 完全な推論ベースラインと比べて平均待機時間を 48% 減少(244 ms から 128 ms)。
  • RoboTwin 2.0 の hard セッティングで平均成功率 37.2% を示し、ドメインランダム化下で強力なベースラインを上回る。
  • アブレーションによりゲーティングはパレート最適な速度/精度を提供することを示し、テキスト計画と視覚的イマジネーションの両方が寄与することを示す。
  • 固定ステップ予測(t+Δt)は完了状態予測と比較して劣る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。