Skip to main content
QUICK REVIEW

[논문 리뷰] Dense Dynamic Scene Reconstruction and Camera Pose Estimation from Multi-View Videos

Shuo Sun, Unal Artan|arXiv (Cornell University)|2026. 03. 12.
Advanced Vision and Imaging인용 수 0
한 줄 요약

두 단계 최적화 프레임워크를 통한 밀집 동적 장면 재구성 및 다중 자유롭게 움직이는 카메라들로부터의 카메라 포즈 추정, wide-baseline 초기화와 포스트-추적 깊이 보정을 통한 시공간 멀티카메라 추적.

ABSTRACT

We address the challenging problem of dense dynamic scene reconstruction and camera pose estimation from multiple freely moving cameras -- a setting that arises naturally when multiple observers capture a shared event. Prior approaches either handle only single-camera input or require rigidly mounted, pre-calibrated camera rigs, limiting their practical applicability. We propose a two-stage optimization framework that decouples the task into robust camera tracking and dense depth refinement. In the first stage, we extend single-camera visual SLAM to the multi-camera setting by constructing a spatiotemporal connection graph that exploits both intra-camera temporal continuity and inter-camera spatial overlap, enabling consistent scale and robust tracking. To ensure robustness under limited overlap, we introduce a wide-baseline initialization strategy using feed-forward reconstruction models. In the second stage, we refine depth and camera poses by optimizing dense inter- and intra-camera consistency using wide-baseline optical flow. Additionally, we introduce MultiCamRobolab, a new real-world dataset with ground-truth poses from a motion capture system. Finally, we demonstrate that our method significantly outperforms state-of-the-art feed-forward models on both synthetic and real-world benchmarks, while requiring less memory.

연구 동기 및 목표

  • Rigid extrinsics 없이 다중 자유롭게 움직이는 카메라로부터의 견고한 밀집 동적 장면 재구성 해결.
  • 중첩 및 비중첩 뷰에서 일관된 스케일과 정확한 카메라 포즈 추정 달성.
  • 강건성과 효율성을 높이기 위한 초기 추적과 밀집 깊이 보정을 구분하는 이단계 파이프라인 개발.
  • 평가를 위한 ground-truth 포즈를 가진 실제 다-camera 데이터셋 제공

제안 방법

  • intra-camera 시간적 연결과 inter-camera 공간 중첩을 연결하는 시공간 연결 그래프를 통해 단일 카메라 SLAM을 다-camera 설정으로 확장하여 공동 최적화.
  • -global scale anchor 및 초기 포즈를 제공하는 feed-forward 재구성 모델이 있는 wide-baseline 초기화 전략 사용.
  • wide-baseline optical flow를 이용한 깊이 및 카메라 포즈의 밀집 상호- 및 내-카메라 일관성 최적화로 보정.
  • 각 프레임의 스케일/시프트 매개변수와 함께 밀집 대응을 통한 두 단계 깊이 보정으로 카메라 간 깊이 정합성 개선.
  • 최적화 중 자세 규칙화 및 시간적 부드러움을 활용하여 온라인 보정을 안정화
Figure 2 : Method Overview. Given multiple video inputs: Our method first uses a feed-forward model for initialization to achieve a global scale anchor and initialized poses (Step1). Then, we build a spatio-temporal connection graph during tracking to estimate camera poses and maintain a consistent
Figure 2 : Method Overview. Given multiple video inputs: Our method first uses a feed-forward model for initialization to achieve a global scale anchor and initialized poses (Step1). Then, we build a spatio-temporal connection graph during tracking to estimate camera poses and maintain a consistent

실험 결과

연구 질문

  • RQ1다중 카메라의 자유롭게 움직이는 설정이 기구 보정 없이도 견고하고 계량적으로 일관된 밀집 장면 재구성을 달성할 수 있는가?
  • RQ2카메라 간 시공간 연결이 동적 장면에서 추적 강건성과 스케일 일관성을 어떻게 향상시키는가?
  • RQ3두 단계 접근법(초기 추적 및 밀집 깊이 보정)이 완전하게 feed-forward 모델보다 재구성 품질이 좋고 메모리 요구를 낮출 수 있는가?
  • RQ4넓은 시야 대비의 초기화가 제한된 시야 중첩에서 강건성을 어떻게 향상시키는가?
  • RQ5다중 뷰 깊이 보정 및 광류 기반 제약이 실제 다-camera 데이터셋에서 어떤 성능을 보이는가?

주요 결과

  • 제안된 방법은 합성 및 실제 벤치마크 모두에서 최신의 feed-forward 모델에 비해 뛰어난 추적 및 재구성 성능을 달성한다.
  • 이 방법은 경쟁적인 feed-forward 방법보다 더 적은 메모리를 소비하면서도 자세 및 깊이 정확도가 향상된다.
  • 시공간 연결 그래프가 intra-camera의 시간적 연속성과 inter-camera의 공간 중첩을 효과적으로 활용하여 일관된 스케일을 유지한다.
  • VGGT를 이용한 wide-baseline 초기화와 단안 깊이 정렬은 도전적인 중첩 시나리오에서 강건한 글로벌 스케일 앵커링을 제공한다.
  • 밀집 광류와 프레임별 스케일/시프트 최적화를 통한 두 단계 깊이 보정은 깊이 깜빡임을 줄이고 다중 뷰 일관성을 향상시킨다.
  • 이 방법은 ground-truth 포즈가 있는 새로운 MultiCamRobolab 실제 세계 데이터셋에서 강력한 성능을 보인다.
Figure 3 : Demonstration spatio-temporal graph. First, each camera will estimate temporal connections with its own frames. Second, at the timestamp $t_{0}$ , Cam.1 will try to make a spatial connection with Cam.0 if there is enough overlap. Additionally, the current active keyframe will try to make
Figure 3 : Demonstration spatio-temporal graph. First, each camera will estimate temporal connections with its own frames. Second, at the timestamp $t_{0}$ , Cam.1 will try to make a spatial connection with Cam.0 if there is enough overlap. Additionally, the current active keyframe will try to make

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.