Skip to main content
QUICK REVIEW

[論文レビュー] EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

Gehao Zhang, Zhenyang Ni|arXiv (Cornell University)|Mar 5, 2026
Robot Manipulation and Learning被引用数 0
ひとこと要約

EmboAlignはビジョン-言語モデルの制約を活用してビデオ生成ロウトをフィルタリング・精練し、制約導来選択と制約ベースの軌道最適化を組み合わせることで、リアルロボットの成功率を向上させる。

ABSTRACT

Video generative models (VGMs) pretrained on large-scale internet data can produce temporally coherent rollout videos that capture rich object dynamics, offering a compelling foundation for zero-shot robotic manipulation. However, VGMs often produce physically implausible rollouts, and converting their pixel-space motion into robot actions through geometric retargeting further introduces cumulative errors from imperfect depth estimation and keypoint tracking. To address these challenges, we present \method{}, a data-free framework that aligns VGM outputs with compositional constraints generated by vision-language models (VLMs) at inference time. The key insight is that VLMs offer a capability complementary to VGMs: structured spatial reasoning that can identify the physical constraints critical to the success and safety of manipulation execution. Given a language instruction, \method{} uses a VLM to automatically extract a set of compositional constraints capturing task-specific requirements, which are then applied at two stages: (1) constraint-guided rollout selection, which scores and filters a batch of VGM rollouts to retain the most physically plausible candidate, and (2) constraint-based trajectory optimization, which uses the selected rollout as initialization and refines the robot trajectory under the same constraint set to correct retargeting errors. We evaluate \method{} on six real-robot manipulation tasks requiring precise, constraint-sensitive execution, improving the overall success rate by 43.3\% points over the strongest baseline without any task-specific training data.

研究の動機と目的

  • ビデオ生成モデル(VGMs)と物理的操作のギャップを、計画と実行時にタスク固有の制約を適用することで埋める。
  • 言語指示と観察から構成的制約を抽出するためにビジョン-言語モデル(VLM)を活用する。
  • VGMロウトを物理的妥当性でフィルタし、同じ制約下で軌道を再調整してリターゲット誤差を是正する。
  • タスク固有の訓練データなしで、実機操作の成功率を向上させることを示す。

提案手法

  • 言語とRGB–D観察からビジョン-言語モデルを用いてタスク特有の構成制約を生成する。
  • 事前学習済みVGMからN件のロウトをサンプルし、潜在世界モデル(VJEPA-2)による視覚的妥当性と3Dキーポイント軌道に基づく空間制約充足度でランク付けする。
  • 再構成された3Dキーポイント軌道が全制約を閾値内で満たす最初のロウトを選択する。
  • 選択したロウトをグリップ姿勢推定と物体中心のキーポイントを用いて初期エンドエフェクタ軌道へリターゲットし、VGM前提への忠実性を維持するペナルティを伴う同じ制約セット下でこの軌道を最適化する。
  • Sequential Least Squares Programming(SLSQP)を用いて、制約違反を最小化する非線形計画問題を解き、最適化軌道をVGM再構成動作に近づける正則化項を加える。
Figure 1: Video Generation Models can zero-shot generate rich motion priors for manipulation tasks, but hallucinations and retargeting errors may prevent these from translating into correct robot actions. We propose to use VLM-derived compositional constraints (e.g., $c_{1}$ : placement alignment, $
Figure 1: Video Generation Models can zero-shot generate rich motion priors for manipulation tasks, but hallucinations and retargeting errors may prevent these from translating into correct robot actions. We propose to use VLM-derived compositional constraints (e.g., $c_{1}$ : placement alignment, $

実験結果

リサーチクエスチョン

  • RQ1VLM由来の構成制約は推論時のVGMベースの操作に対して物理的および安全性要件を課すことができるか。
  • RQ2二段階の制約整合(ロウト選択と軌道最適化)は、タスク固有データなしでもゼロショットの実機操作を改善できるか。
  • RQ3制約と対象物が異なる多様な操作タスクにおいてEmboAlignはどの程度機能するか。
  • RQ4現実世界のロボティクスでVGMsを構成制約と整合させる際の主な故障モードは何か。

主な発見

MethodStackPressHam.PlaceOpenPourAvg.
ReKep3/102/101/101/104/102/1021.7%
NovaFlow2/100/101/104/104/104/1025.0%
Ours7/108/104/108/107/107/1068.3%
  • EmboAlignは6つのタスクで平均実機成功率68.3%を達成し、制約のみ・動画のみのベースラインを上回った。
  • 制約導 guidedのビデオ選択は実行前に物理的に妥当性の低いロウトを除去する。
  • 制約ベースの軌道最適化は空間・運動学的制約を満たすようリターゲット動作を精練する。
  • 計画と実行で同じ制約セットを用いることで操作の安全性と精度が向上する。
  • アブレーション研究は、VGM提案と制約推論を組み合わせる利点を、いずれかを単独で用いる場合より示す。
Figure 2: EmboAlign pipeline. Given a language instruction and RGB–D observations, a VLM generates compositional constraints while a VGM produces candidate rollout videos. A latent world model ranks rollouts by physical plausibility, then the constraint set filters candidates in descending-score ord
Figure 2: EmboAlign pipeline. Given a language instruction and RGB–D observations, a VLM generates compositional constraints while a VGM produces candidate rollout videos. A latent world model ranks rollouts by physical plausibility, then the constraint set filters candidates in descending-score ord

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。