QUICK REVIEW

[論文レビュー] V-Dreamer: Automating Robotic Simulation and Trajectory Synthesis via Video Generation Priors

Songjia He, Zixuan Chen|arXiv (Cornell University)|Mar 19, 2026

Robot Manipulation and Learning被引用数 0

ひとこと要約

V-Dreamer は、LLM・3D拡散・映像 priors を用いて自然言語からオープンボキャブラリなシーン生成と実行可能な軌道を自動化し、スケーラブルな方針学習とゼロショットの sim-to-real 転送を実現します。

ABSTRACT

Training generalist robots demands large-scale, diverse manipulation data, yet real-world collection is prohibitively expensive, and existing simulators are often constrained by fixed asset libraries and manual heuristics. To bridge this gap, we present V-Dreamer, a fully automated framework that generates open-vocabulary, simulation-ready manipulation environments and executable expert trajectories directly from natural language instructions. V-Dreamer employs a novel generative pipeline that constructs physically grounded 3D scenes using large language models and 3D generative models, validated by geometric constraints to ensure stable, collision-free layouts. Crucially, for behavior synthesis, we leverage video generation models as rich motion priors. These visual predictions are then mapped into executable robot trajectories via a robust Sim-to-Gen visual-kinematic alignment module utilizing CoTracker3 and VGGT. This pipeline supports high visual diversity and physical fidelity without manual intervention. To evaluate the generated data, we train imitation learning policies on synthesized trajectories encompassing diverse object and environment variations. Extensive evaluations on tabletop manipulation tasks using the Piper robotic arm demonstrate that our policies robustly generalize to unseen objects in simulation and achieve effective sim-to-real transfer, successfully manipulating novel real-world objects.

研究の動機と目的

自然言語から多様でシミュレーション準備が整った環境を生成することで、一般目的ロボット操作のデータボトルネックに対処する。
固定資産ライブラリや人間の監督を必要とせず、物理的に根拠のある3Dシーンを合成する。
映像ベースの動作 priors を堅牢な sim-to-gen アラインメントを介して実行可能なロボット軌道へ Grounds。
合成データから方針学習を実演し、未知の物体へのゼロショット一般化と sim-to-real 転送を堅牢に示す。

提案手法

意味情報から物理へシーン合成: LLM でアセットマニフェストを作成後、拡散モデルで2Dアセットを生成、SAM3でセグメンテーションを行い、メモリ効率の良い3Dメッシュを再構成する。
物理的に根拠のあるレイアウト: LLM による指標推論と物理検証（AABB衝突、重力）を組み合わせてシーンを構築。
映像 priors ベースの軌道生成: シミュレータでシーンを定着させ、初期フレーム美学を整え、ネガティブプロンプト付きの映像拡散モデルで操作ビデオを生成。
視覚から運動学へのグラウンディング: マスクベース追跡（SAM3）、深度推定（VGGT）、2D-3Dリフト（CoTracker3、TAPIP3D）、IKベースのエンドエフェクタ軌道。
把持生成と実行: Graspgen を用いて実現可能な把持を取得し、ロボット軌道へマッピング。
Sim-to-Real アラインメント: シミュレーションシーンを実画像へ合わせる Real2Sim、現実機でのゼロショットポリシー展開（Sim2Real）。

実験結果

リサーチクエスチョン

RQ1V-Dreamer は方針学習に適した大規模で高品質・多様なデモを生成できるか？
RQ2オープンボキャブラリなシーン合成は、未知の物体へのゼロショット一般化を支える十分な意味論的・幾何学的多様性を生み出すか？
RQ3生成された軌道は物理的に妥当で実機で実行可能であり、ゼロショット sim-to-real 転送を可能にするか？
RQ4合成データの規模拡大が下流の模倣学習性能にどう影響するか？
RQ5ワンショットの合成デモで、厳密な sim-to-real プロトコル下で現実世界の実用的展開は可能か？

主な発見

V-Dreamer はマルチGPUワークステーションでスケールに応じて高い変動性を持つ実行可能なシーン–アクションペアを生成できる。
より大きな合成データセットは未知の幾何に対する方針の成功率を改善し、未見のマグカップに対してシミュレーションで36.96%の成功率を達成するために2,500軌跡でピークを迎える。
より小さな合成データセット（例: 500軌跡）は成功率が非常に低く（3.46%）データの網羅性の重要性を示す。
V-Dreamer のデータのみで訓練したポリシーはシミュレーション内で未知の物体に一般化し、厳格なプロトコル下でゼロショットの sim-to-real 転送を可能にする。
ゼロショットの現実世界転送が実証され、単一の合成軌跡で訓練されたポリシーが Piper ロボットのRGB-Dカメラを用いたピック＆プレースを実行する一方、遮蔽や背景雑音下でのロバスト性には限界がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。