[논문 리뷰] WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories
WorldStereo는 두 개의 기하학 인지 메모리 모듈(Global-Geometric Memory 및 Spatial-Stereo Memory)을 도입하여 다중 궤적의 카메라 안내 비디오 생성을 가능하게 하고, 일관된 3D 재구성을 제공하며, Distillation을 통한 효율적 추론을 실현한다.
Recent advances in foundational Video Diffusion Models (VDMs) have yielded significant progress. Yet, despite the remarkable visual quality of generated videos, reconstructing consistent 3D scenes from these outputs remains challenging, due to limited camera controllability and inconsistent generated content when viewed from distinct camera trajectories. In this paper, we propose WorldStereo, a novel framework that bridges camera-guided video generation and 3D reconstruction via two dedicated geometric memory modules. Formally, the global-geometric memory enables precise camera control while injecting coarse structural priors through incrementally updated point clouds. Moreover, the spatial-stereo memory constrains the model's attention receptive fields with 3D correspondence to focus on fine-grained details from the memory bank. These components enable WorldStereo to generate multi-view-consistent videos under precise camera control, facilitating high-quality 3D reconstruction. Furthermore, the flexible control branch-based WorldStereo shows impressive efficiency, benefiting from the distribution matching distilled VDM backbone without joint training. Extensive experiments across both camera-guided video generation and 3D reconstruction benchmarks demonstrate the effectiveness of our approach. Notably, we show that WorldStereo acts as a powerful world model, tackling diverse scene generation tasks (whether starting from perspective or panoramic images) with high-fidelity 3D results. Models will be released.
연구 동기 및 목표
- 카메라-가이드 비디오 생성을 통한 강건한 3D 재구성의 동기를 부여한다.
- 메모리 메커니즘을 통해 카메라-가이드 확산 모델과 3D 재구성을 연결한다.
- 기하학 인식 메모리를 추가하면서도 냉동된 VDM 백본을 유지하여 일반화 능력을 보존한다.
- 3D 장면 재구성에 적합한 장기간 궤적의 다중 시점 일관성을 가능하게 한다.
- 카메라-가이드 생성으로부터의 3D 재구성을 평가하기 위한 새로운 벤치마크를 제공한다.
제안 방법
- 카메라-가이드 VDM(Uni3C)을 두 메모리 모듈(Global-Geometric Memory(GGM) 및 Spatial-Stereo Memory(SSM))로 확장한다.
- GGM은 다중 궤적에 걸친 대략적인 기하학 사전 정보를 제공하기 위해 전역 포인트 클라우드 3D 캐시를 점진적으로 업데이트한다.
- SSM은 참조 뷰를 검색하고 3D 대응(포인트맵)을 사용하여 세밀한 디테일 합성을 이끄는 3D 기하학 인식 주의를 강제한다.
- 전체 확산 모델을 재훈련하지 않고 픽셀 정렬 조건을 주입하기 위해 ControlNet 가지(branch)들을 사용하여 일반화를 보존한다.
- 얼려진 VDM 백본으로부터 4단계 DiT 제너레이터를 더 빠르게 증류하기 위해 Distribution Matching Distillation(DMD)로 학습하여 효율적 추론을 가능하게 한다.
- WorldMirror-스타일 재구성으로 3D 캐시를 구성하고 Umeyama 변환으로 다중 시야 일관성을 위해 캐시를 정렬한다.

실험 결과
연구 질문
- RQ1기하학 인식 메모리(GGM 및 SSM)가 일관된 3D 기하학을 갖는 다중 궤적 비디오 생성을 가능하게 할 수 있는가?
- RQ2메모리 확장이 카메라 제어 정밀도와 카메라-가이드 VDM의 3D 재구성 품질에 어떠한 영향을 미치는가?
- RQ3이 접근법이 파노라마 기반 및 단일 뷰 입력에 대해 3D 장면 생성을 일반화할 수 있는가?
- RQ4추론 가속(DMD)에 따른 품질 및 제어 가능성에 미치는 영향은 무엇인가?
주요 결과
| 방법 | F1-점수 | AUC | 회전 오차 | 이동 오차 | ATE |
|---|---|---|---|---|---|
| Uni3C | 0.424 | 0.378 | 0.362 | 0.1017 | 0.1572 |
| Gen3C | 0.416 | 0.380 | 0.342 | 0.0949 | 0.1704 |
| SEVA | 0.286 | 0.293 | 0.379 | 0.0949 | 0.1815 |
| Lyra | 0.227 | 0.193 | – | – | – |
| VMem | 0.386 | 0.375 | 0.533 | 0.1510 | 0.1922 |
| WorldStereo* | 0.447 | 0.389 | 0.377 | 0.0990 | 0.1545 |
| WorldStereo-GGM | 0.485 | 0.411 | 0.224 | 0.0885 | 0.1350 |
| WorldStereo-Full | 0.578 | 0.437 | 0.247 | 0.0927 | 0.1501 |
| WorldStereo-DMD | 0.534 | 0.410 | 0.291 | 0.1001 | 0.1547 |
| MipNeRF360 - Uni3C | 0.352 | 0.347 | 0.112 | 0.0086 | 0.0104 |
| MipNeRF360 - Gen3C | 0.356 | 0.340 | 0.349 | 0.0220 | 0.0318 |
| MipNeRF360 - SEVA | 0.332 | 0.311 | 0.282 | 0.0138 | 0.0295 |
| MipNeRF360 - Lyra | 0.203 | 0.263 | – | – | – |
| MipNeRF360 - VMem | 0.256 | 0.245 | 0.403 | 0.0392 | 0.0752 |
| MipNeRF360 - WorldStereo* | 0.350 | 0.342 | 0.097 | 0.0076 | 0.0099 |
| MipNeRF360 - WorldStereo-GGM | 0.342 | 0.346 | 0.107 | 0.0079 | 0.0206 |
| MipNeRF360 - WorldStereo-Full | 0.406 | 0.402 | 0.114 | 0.0080 | 0.0132 |
| MipNeRF360 - WorldStereo-DMD | 0.390 | 0.387 | 0.159 | 0.0106 | 0.0267 |
- WorldStereo는 기준(Base라인)보다 우수한 카메라 제어 정확도와 더 높은 품질의 비디오 생성을 달성한다.
- GGM은 궤적 간의 전역 3D 구조 일관성을 개선하고, SSM은 3D 대응-가이드 주의를 통해 세밀한 디테일을 향상시킨다.
- 두 메모리 모듈을 모두 포함하면 Tanks&Temples 및 MipNeRF360 데이터셋에서 3D 재구성 지표가 크게 향상된다.
- WorldStereo-DMD는 3D 일관성을 강하게 유지하면서 추론이 훨씬 빠르다(4-step Distillation).
- 새로운 단일 뷰 3D 재구성 벤치마크는 객체 중심, 얼굴 전면 및 360° 파노라마 작업 전반에서 WorldStereo의 효과를 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.