Skip to main content
QUICK REVIEW

[論文レビュー] ST-VLA: Enabling 4D-Aware Spatiotemporal Understanding for General Robot Manipulation

You Wu, Zixuan Chen|arXiv (Cornell University)|Mar 14, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

ST-VLAは統一的な3D-4D表現と大規模なST-Humanデータセットを導入し、低レベルの3Dポリシーを導く高レベルの時空推論VLM(ST-VLM)を実現して、オープンワールド設定でゼロショットおよび長期的操作を強力に行える。

ABSTRACT

Robotic manipulation in open-world environments requires reasoning across semantics, geometry, and long-horizon action dynamics. Existing hierarchical Vision-Language-Action (VLA) frameworks typically use 2D representations to connect high-level reasoning with low-level control, but lack depth awareness and temporal consistency, limiting robustness in complex 3D scenes. We propose ST-VLA, a hierarchical VLA framework using a unified 3D-4D representation to bridge perception and action. ST-VLA converts 2D guidance into 3D trajectories and generates smooth spatial masks that capture 4D spatio-temporal context, providing a stable interface between semantic reasoning and continuous control. To enable effective learning of such representations, we introduce ST-Human, a large-scale human manipulation dataset with 14 tasks and 300k episodes, annotated with 2D, 3D, and 4D supervision via a semi-automated pipeline. Using ST-Human, we train ST-VLM, a spatio-temporal vision-language model that generates spatially grounded and temporally coherent 3D representations to guide policy execution. The smooth spatial masks focus on task-relevant geometry and stabilize latent representations, enabling online replanning and long-horizon reasoning. Experiments on RLBench and real-world manipulation tasks show that \method significantly outperforms state-of-the-art baselines, improving zero-shot success rates by 44.6% and 30.3%. These results demonstrate that offloading spatio-temporal reasoning to VLMs with unified 3D-4D representations substantially improves robustness and generalization for open-world robotic manipulation. Project website: https://oucx117.github.io/ST-VLA/.

研究の動機と目的

  • 統一的な3D-4D中間表現で意味推論と幾何実行を結びつける。
  • ST-Humanで訓練された高容量の時空ビジョン言語モデル(ST-VLM)を3D-4D groundingのために開発する。
  • 階層的なVision-Language-Actionフレームワークを通じてオンラインリプランニングと長期的操作を可能にする。
  • シミュレートおよび実世界のロボット操作タスクで頑健性と一般化を示す。

提案手法

  • 3D-4D表現(3D軌道と滑らかな空間マスクからなる)を用いる階層的VLAフレームワークST-VLAを導入する。
  • マルチタスク微調整のために300kエピソード・4.3Mサンプルを持つ大規模な3D-4D人間操作データセット ST-Humanを作成する。
  • ST-Humanおよび公開データセットで4BのST-VLMモデルを微調整し、2D軌道を3D-4D表現へ groundingし長期推論を可能にする。
  • 高レベルのST-VLM出力が低レベルの3D認識ポリシー(3DDA/3DFA)を拡張観測を介して条件づける2段階推論を用いる。
  • タスクに関連しない領域を抑制し実行中の潜在性安定性を維持する滑らかなマスキング機構を提案する。
  • ST-VLMとST-VLAをRLBench、RoboRefit、CVBench、SAT、および実世界のパンダ操作で評価し、ゼロショット一般化と長期的パフォーマンスを2Dベースの基準と比較する。
Figure 1 : ST-VLM bridges the semantic-physical gap via unified 3D-4D spatio-temporal representations. (Left) Existing 2D-based VLMs face geometric ambiguity and temporal inconsistency due to the semantic-physical mismatch. (Right) Our ST-VLA utilizes unified 3D-4D representations with explicit traj
Figure 1 : ST-VLM bridges the semantic-physical gap via unified 3D-4D spatio-temporal representations. (Left) Existing 2D-based VLMs face geometric ambiguity and temporal inconsistency due to the semantic-physical mismatch. (Right) Our ST-VLA utilizes unified 3D-4D representations with explicit traj

実験結果

リサーチクエスチョン

  • RQ1統一的な3D-4D中間表現は意味推論と3Dロボット実行の整合性を改善できるか。
  • RQ2大規模なST-Humanで訓練されたST-VLMは低レベルポリシーに頑健なゼロショット・長期操作能力を付与するか。
  • RQ33D-4D groundingプリオリはオープンワールド操作における未知物体や混雑環境への一般化にどのように影響するか。
  • RQ4ST-VLAを用いる場合、ゼロショット成功、安定性、シナリオ間一般化の向上は、2Dベースのベースラインと比較してどの程度か。
  • RQ54D対応の階層フレームワークでオンラインリプランニングは現実世界のロボティクスで実現可能か。

主な発見

  • ST-VLMはRoboRefit、CVBench、SATのデータセットで既存手法より最大33.19%の改善を達成。
  • RLBenchではST-VLAがゼロショット成功率を44.6%向上。
  • 実世界の実験ではゼロショット一般化で平均30.3%の改善、妨害要素耐性で40.8%の改善を示す。
  • ST-VLMは深度推定精度46.67%、ST-Human-空間 grounding 98.00%を達成し、強力な3D-4D grounding能力を示す。
  • ST-VLAは長期的で連続的な操作を高い安定性で可能にし、長期的に見えないシーケンスで全体成功率97.3%を達成(ST-VLA(3DFA))。
  • ST-VLM(4B)は見られないST-Human-Planningタスクへの移行に強い転移を示し、成功率92.00%を達成。
Figure 2 : Overview of the ST-Human Dataset Construction and Unified 2D-3D-4D Task Generation.
Figure 2 : Overview of the ST-Human Dataset Construction and Unified 2D-3D-4D Task Generation.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。