[논문 리뷰] Dense Dynamic Scene Reconstruction and Camera Pose Estimation from Multi-View Videos
두 단계 최적화 프레임워크를 통한 밀집 동적 장면 재구성 및 다중 자유롭게 움직이는 카메라들로부터의 카메라 포즈 추정, wide-baseline 초기화와 포스트-추적 깊이 보정을 통한 시공간 멀티카메라 추적.
We address the challenging problem of dense dynamic scene reconstruction and camera pose estimation from multiple freely moving cameras -- a setting that arises naturally when multiple observers capture a shared event. Prior approaches either handle only single-camera input or require rigidly mounted, pre-calibrated camera rigs, limiting their practical applicability. We propose a two-stage optimization framework that decouples the task into robust camera tracking and dense depth refinement. In the first stage, we extend single-camera visual SLAM to the multi-camera setting by constructing a spatiotemporal connection graph that exploits both intra-camera temporal continuity and inter-camera spatial overlap, enabling consistent scale and robust tracking. To ensure robustness under limited overlap, we introduce a wide-baseline initialization strategy using feed-forward reconstruction models. In the second stage, we refine depth and camera poses by optimizing dense inter- and intra-camera consistency using wide-baseline optical flow. Additionally, we introduce MultiCamRobolab, a new real-world dataset with ground-truth poses from a motion capture system. Finally, we demonstrate that our method significantly outperforms state-of-the-art feed-forward models on both synthetic and real-world benchmarks, while requiring less memory.
연구 동기 및 목표
- Rigid extrinsics 없이 다중 자유롭게 움직이는 카메라로부터의 견고한 밀집 동적 장면 재구성 해결.
- 중첩 및 비중첩 뷰에서 일관된 스케일과 정확한 카메라 포즈 추정 달성.
- 강건성과 효율성을 높이기 위한 초기 추적과 밀집 깊이 보정을 구분하는 이단계 파이프라인 개발.
- 평가를 위한 ground-truth 포즈를 가진 실제 다-camera 데이터셋 제공
제안 방법
- intra-camera 시간적 연결과 inter-camera 공간 중첩을 연결하는 시공간 연결 그래프를 통해 단일 카메라 SLAM을 다-camera 설정으로 확장하여 공동 최적화.
- -global scale anchor 및 초기 포즈를 제공하는 feed-forward 재구성 모델이 있는 wide-baseline 초기화 전략 사용.
- wide-baseline optical flow를 이용한 깊이 및 카메라 포즈의 밀집 상호- 및 내-카메라 일관성 최적화로 보정.
- 각 프레임의 스케일/시프트 매개변수와 함께 밀집 대응을 통한 두 단계 깊이 보정으로 카메라 간 깊이 정합성 개선.
- 최적화 중 자세 규칙화 및 시간적 부드러움을 활용하여 온라인 보정을 안정화

실험 결과
연구 질문
- RQ1다중 카메라의 자유롭게 움직이는 설정이 기구 보정 없이도 견고하고 계량적으로 일관된 밀집 장면 재구성을 달성할 수 있는가?
- RQ2카메라 간 시공간 연결이 동적 장면에서 추적 강건성과 스케일 일관성을 어떻게 향상시키는가?
- RQ3두 단계 접근법(초기 추적 및 밀집 깊이 보정)이 완전하게 feed-forward 모델보다 재구성 품질이 좋고 메모리 요구를 낮출 수 있는가?
- RQ4넓은 시야 대비의 초기화가 제한된 시야 중첩에서 강건성을 어떻게 향상시키는가?
- RQ5다중 뷰 깊이 보정 및 광류 기반 제약이 실제 다-camera 데이터셋에서 어떤 성능을 보이는가?
주요 결과
- 제안된 방법은 합성 및 실제 벤치마크 모두에서 최신의 feed-forward 모델에 비해 뛰어난 추적 및 재구성 성능을 달성한다.
- 이 방법은 경쟁적인 feed-forward 방법보다 더 적은 메모리를 소비하면서도 자세 및 깊이 정확도가 향상된다.
- 시공간 연결 그래프가 intra-camera의 시간적 연속성과 inter-camera의 공간 중첩을 효과적으로 활용하여 일관된 스케일을 유지한다.
- VGGT를 이용한 wide-baseline 초기화와 단안 깊이 정렬은 도전적인 중첩 시나리오에서 강건한 글로벌 스케일 앵커링을 제공한다.
- 밀집 광류와 프레임별 스케일/시프트 최적화를 통한 두 단계 깊이 보정은 깊이 깜빡임을 줄이고 다중 뷰 일관성을 향상시킨다.
- 이 방법은 ground-truth 포즈가 있는 새로운 MultiCamRobolab 실제 세계 데이터셋에서 강력한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.