QUICK REVIEW

[논문 리뷰] V-Dreamer: Automating Robotic Simulation and Trajectory Synthesis via Video Generation Priors

Songjia He, Zixuan Chen|arXiv (Cornell University)|2026. 03. 19.

Robot Manipulation and Learning인용 수 0

한 줄 요약

V-Dreamer는 LLM, 3D 확산 및 영상 프라이어를 사용하여 자연어로부터 오픈-벤다이언트 시퀀스 생성과 실행 가능한 궤적을 자동화하여 확장 가능한 정책 학습과 제로샷 시뮬레이션-현실 전이를 가능하게 한다.

ABSTRACT

Training generalist robots demands large-scale, diverse manipulation data, yet real-world collection is prohibitively expensive, and existing simulators are often constrained by fixed asset libraries and manual heuristics. To bridge this gap, we present V-Dreamer, a fully automated framework that generates open-vocabulary, simulation-ready manipulation environments and executable expert trajectories directly from natural language instructions. V-Dreamer employs a novel generative pipeline that constructs physically grounded 3D scenes using large language models and 3D generative models, validated by geometric constraints to ensure stable, collision-free layouts. Crucially, for behavior synthesis, we leverage video generation models as rich motion priors. These visual predictions are then mapped into executable robot trajectories via a robust Sim-to-Gen visual-kinematic alignment module utilizing CoTracker3 and VGGT. This pipeline supports high visual diversity and physical fidelity without manual intervention. To evaluate the generated data, we train imitation learning policies on synthesized trajectories encompassing diverse object and environment variations. Extensive evaluations on tabletop manipulation tasks using the Piper robotic arm demonstrate that our policies robustly generalize to unseen objects in simulation and achieve effective sim-to-real transfer, successfully manipulating novel real-world objects.

연구 동기 및 목표

일반 로봇 조작의 데이터 병목 현상을 해소하기 위해 자연어로부터 다양하고 시뮬레이션에 적합한 환경을 생성한다.
고정 자산 라이브러리나 인간 감독 없이 물리적으로 근거 있는 3D 장면을 합성한다.
비디오 기반 모션 프라이어를 강인한 시뮬레이터-생성 정렬로 구동 가능한 로봇 궤적으로 접목한다.
합성 데이터로부터 정책 학습을 수행하고 보지 못한 물체에 대해 제로샷 일반화와 시뮬레이션-현실 전이를 강화한다.

제안 방법

의미-물리 장면 합성: LLM으로 자산 명세를 생성하고, 2D 자산은 확산 모델로 생성한 뒤 SAM3로 분할하고 메모리 효율적인 3D 메시로 재구성한다.
물리적으로 근거 있는 배치: LLM 기반의 메트릭 추론과 물리 검증(AABB 충돌, 중력)을 통해 장면을 구성한다.
비디오 프라이어 기반 궤적 생성: 시뮬레이터에서 장면을 확정하고 초기 프레임 미학을 다듬은 뒤 음성 프롬프트를 사용해 부정 프롬프트를 활용하여 조작 비디오를 생성한다.
시각-운동학 접지: 마스크 기반 트래킹(SAM3), 깊이 추정(VGGT), 2D-3D 상승(CoTracker3, TAPIP3D), IK 기반 말단-도구 궤적.
그립 생성 및 실행: Graspgen으로 실행 가능한 그립을 얻고 로봇 궤적으로 매핑한다.
시뮬레이션-현실 정렬: 시뮬레이션 장면을 실제 이미지(Real2Sim)와 정렬하고 정책을 제로샷으로 실제 하드웨어에 배치(Sim2Real)한다.

실험 결과

연구 질문

RQ1V- Dreamer가 정책 학습에 적합한 대규모 고품질의 다양한 시연을 생성할 수 있는가?
RQ2오픈 보카피 시나리오 합성이 제로샷 일반화를 지지하는 충분한 의미적·기하학적 다양성을 제공하는가?
RQ3생성된 궤적이 물리적으로 타당하고 실제 로봇에서 실행 가능하여 제로샷 시뮬레이션-현실 전이가 가능한가?
RQ4합성 데이터의 규모가 후속 모방 학습 성능에 어떤 영향을 주는가?
RQ5단일 합성 시연으로도 엄격한 시뮬레이션-현실 프로토콜 하에서 현실 세계 배치가 가능한가?

주요 결과

V-Dreamer는 다중 GPU 워크스테이션에서 대규모로 고변이성의 실행 가능한 장면-동작 쌍을 생성할 수 있다.
더 큰 합성 데이터셋은 보지 못한 기하학적 형태에서의 정책 성공을 높이며, 보지 못한 머그컵의 시뮬레이션에서 성공률이 36.96%인 2,500 궤적으로 정점에 이른다.
더 작은 합성 데이터셋(예: 500 궤적)은 매우 낮은 성공률(3.46%)을 보이며 데이터 커버리지가 중요함을 보여준다.
V-Dreamer 데이터만으로 학습된 정책은 시뮬레이션에서 보지 못한 물체에 일반화되며 엄격한 프로토콜 하에서 제로샷 시뮬레이션-현실 전이를 가능하게 한다.
제로샷 실세계 전이가 시연되었으며, 단일 합성 시퀀스로 학습된 정책이 Piper 로봇과 RGB-D 카메라를 이용한 픽앤플레이스를 수행하되 가려짐과 배경 잡음에 대해 강건성은 제한적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.