QUICK REVIEW

[论文解读] V-Dreamer: Automating Robotic Simulation and Trajectory Synthesis via Video Generation Priors

Songjia He, Zixuan Chen|arXiv (Cornell University)|Mar 19, 2026

Robot Manipulation and Learning被引用 0

一句话总结

V-Dreamer 使用大语言模型、3D 扩散和视频先验，从自然语言自动化开放词汇场景生成和可执行轨迹，支持可扩展的策略学习与零样本从仿真到现实的转移。

ABSTRACT

Training generalist robots demands large-scale, diverse manipulation data, yet real-world collection is prohibitively expensive, and existing simulators are often constrained by fixed asset libraries and manual heuristics. To bridge this gap, we present V-Dreamer, a fully automated framework that generates open-vocabulary, simulation-ready manipulation environments and executable expert trajectories directly from natural language instructions. V-Dreamer employs a novel generative pipeline that constructs physically grounded 3D scenes using large language models and 3D generative models, validated by geometric constraints to ensure stable, collision-free layouts. Crucially, for behavior synthesis, we leverage video generation models as rich motion priors. These visual predictions are then mapped into executable robot trajectories via a robust Sim-to-Gen visual-kinematic alignment module utilizing CoTracker3 and VGGT. This pipeline supports high visual diversity and physical fidelity without manual intervention. To evaluate the generated data, we train imitation learning policies on synthesized trajectories encompassing diverse object and environment variations. Extensive evaluations on tabletop manipulation tasks using the Piper robotic arm demonstrate that our policies robustly generalize to unseen objects in simulation and achieve effective sim-to-real transfer, successfully manipulating novel real-world objects.

研究动机与目标

通过从自然语言生成多样且可在仿真中使用的环境来解决通用机器人操作的数据瓶颈。
在没有固定资产库或人工监督的情况下合成物理上扎实的3D场景。
通过稳健的仿真到生成对齐，将基于视频的运动先验落地为可执行的机器人轨迹。
展示从合成数据进行策略学习并对未见对象实现稳健的零样本泛化及仿真到现实的转移。

提出的方法

语义到物理场景合成：使用 LLM 生成资产清单（Asset Manifest），再用扩散模型生成二维资源，使用 SAM3 进行分割，并重建内存高效的3D网格。
物理上扎实的布局：LLM 指导的度量推理和基于物理的验证（AABB 碰撞、重力）来组装场景。
基于视频先验的轨迹生成：在仿真器中定妥场景，改进初始帧美学，然后使用带负提示的视频扩散模型生成操作视频。
可视化到运动学的落地：基于掩膜的跟踪（SAM3）、深度估计（VGGT）、2D到3D 提升（CoTracker3、TAPIP3D）、以及基于 IK 的末端执行器轨迹。
抓取生成与执行：GraspGen 获取可行抓取并映射到机器人轨迹。
仿真到现实对齐：将仿真场景对齐到真实图像（Real2Sim），在真实硬件上进行零样本部署策略（Sim2Real）。

实验结果

研究问题

RQ1V-Dreamer 是否能够生成大规模、高质量、多样化的演示用于策略学习？
RQ2开放词汇场景合成是否提供足够的语义和几何多样性以支持对未见对象的零样本泛化？
RQ3所生成的轨迹是否物理合理且可在真实机器人上执行，从而实现零样本仿真到现实的转移？
RQ4合成数据的规模如何影响下游模仿学习的性能？
RQ5是否可以通过一次性合成演示在严格的 sim-to-real 协议下实现实际世界部署？

主要发现

V-Dreamer 能在多GPU工作站上生成高变异性、可执行的场景-动作对，规模化。
更大的合成数据集提升了对未见几何体的策略成功率，在未见杯子上仿真中的成功率达到36.96%，轨迹数为2,500。
较小的合成数据集（如500条轨迹）成功率很低（3.46%），凸显了数据覆盖的重要性。
仅基于 V-Dreamer 数据训练的策略在仿真中对未见对象具有泛化能力，并在严格协议下实现零样本仿真到现实转移。
实现了零样本现实世界转移：在RGB-D相机下，使用单一合成轨迹训练的策略在 Piper 机器人上执行抓取并放置任务，尽管对遮挡和背景混乱的鲁棒性有限。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。