Skip to main content
QUICK REVIEW

[論文レビュー] Grounding Generated Videos in Feasible Plans via World Models

Christos Ziakas, Amir Bar|arXiv (Cornell University)|Feb 2, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

GVP-WMは、事前学習済みの行動条件付きワールドモデルの下で潜在軌道を最適化することにより、ビデオ生成計画を実行可能なアクション列へと基盤付けし、長期的な実行可能性とビデオの欠陥に対するロバスト性を向上させます。

ABSTRACT

Large-scale video generative models have shown emerging capabilities as zero-shot visual planners, yet video-generated plans often violate temporal consistency and physical constraints, leading to failures when mapped to executable actions. To address this, we propose Grounding Video Plans with World Models (GVP-WM), a planning method that grounds video-generated plans into feasible action sequences using a learned action-conditioned world model. At test-time, GVP-WM first generates a video plan from initial and goal observations, then projects the video guidance onto the manifold of dynamically feasible latent trajectories via video-guided latent collocation. In particular, we formulate grounding as a goal-conditioned latent-space trajectory optimization problem that jointly optimizes latent states and actions under world-model dynamics, while preserving semantic alignment with the video-generated plan. Empirically, GVP-WM recovers feasible long-horizon plans from zero-shot image-to-video-generated and motion-blurred videos that violate physical constraints, across navigation and manipulation simulation tasks.

研究の動機と目的

  • ビデオ生成計画を実行可能で物理的に実現可能なアクション列へ変換する必要性を動機付ける。
  • 事前学習済みの行動条件付きワールドモデルを活用するテスト時の基盤付け法を開発する。
  • ビデオ計画と整合する意味論を保ちながらワールドモデルのダイナミクスを強制する。
  • 分布外のビデオ指示や動きのぼかしなどに対して、長期的な計画性を向上させることを示す。

提案手法

  • 拡散モデルを用いた画像→ビデオモデルにより初期観察とゴール観察からビデオ計画を生成する。
  • 事前学習済みワールドモデルエンコーダでビデオ計画を潜在空間にエンコードする。
  • ワールドモデルのダイナミクスの下で潜在空間の軌道最適化(コラレーション)により計画を基盤付けする。
  • 拡張ラグランジュ法を用いて潜在状態とアクションをビデオ指示とダイナミクス制約と jointly 最適化する。
  • 得られたアクション列をモデル予測制御で実行し、必要に応じて局所的なリファインメントを行う。
  • 最適化された潜在状態と video.latents の単位正規化埋め込みに対するコサイン様の損失を用いて、スケール不変な意味論的整合を組み込む。
Figure 1 : GVP-WM projects video-generated plans onto dynamically feasible latent trajectories via latent-space trajectory optimization under a pre-trained action-conditioned world model, while preserving semantic alignment with the video plan.
Figure 1 : GVP-WM projects video-generated plans onto dynamically feasible latent trajectories via latent-space trajectory optimization under a pre-trained action-conditioned world model, while preserving semantic alignment with the video plan.

実験結果

リサーチクエスチョン

  • RQ1ビデオ計画をテスト時に実行可能で動的に一貫したアクション列へ変換できるか。
  • RQ2学習済みワールドモデル下の潜在空間コラレーションは、不完全なビデオ計画に guided された長期計画を改善するか。
  • RQ3分布外のビデオ指示や動体ブラーのような時間的アーティファクトに対して基盤付けはどれくらいロバストか。
  • RQ4基盤付けは、ナビゲーションと操作タスクにおいて、直接のビデオ→アクションベースと勾配ベースまたはサンプリングベースのプランナーよりも優れているか。
  • RQ5ビデオ指示と潜在コラレーションが全体の性能に寄与する度合いはどの程度か。

主な発見

  • GVP-WMは、ゼロショットおよびドメイン適応ビデオ計画から、ナビゲーションと操作タスクの長期実行可能な計画を回復する。
  • GVP-WMは、特に動きのブラー下で、ビデオ指示を用いた場合に勾配ベースおよびサンプリングベースのワールドモデルプランナーより一貫して優れている。
  • ビデオ指示は、特にドメイン適応指示で性能を向上させ、潜在コラレーションは実現可能性を維持するために不可欠である。
  • 潜在コラレーションによる基盤付けは、長期にわたる堅牢な性能を生み、 UniPi よりも時間的不整合に対してロバストである。
  • ドメイン適応およびオラクルビデオ計画は、直接のビデオ→アクションベースの基準を上回る可能性を示す。
Figure 2 : Overview of GVP-WM. A video plan, which may contain physically infeasible transitions (e.g., motion blur or object teleportation), is encoded into a sequence of latent states ${z^{\mathrm{vid}}_{t:T-1}}$ using a pretrained visual encoder $E\phi$ of the world model. Video-guided latent col
Figure 2 : Overview of GVP-WM. A video plan, which may contain physically infeasible transitions (e.g., motion blur or object teleportation), is encoded into a sequence of latent states ${z^{\mathrm{vid}}_{t:T-1}}$ using a pretrained visual encoder $E\phi$ of the world model. Video-guided latent col

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。