QUICK REVIEW

[논문 리뷰] D$^2$NeRF: Self-Supervised Decoupling of Dynamic and Static Objects from a Monocular Video

Tianhao Wu, Fangcheng Zhong|arXiv (Cornell University)|2022. 05. 31.

Human Pose and Action Recognition인용 수 41

한 줄 요약

D2NeRF는 단일 카메라 비디오로부터 동적 객체(및 그 그림자)를 정적 배경으로부터 분리하여 분리된 3D 장면을 학습합니다. 이를 위해 self-supervised radiance fields와 그림자 필드를 사용합니다. 이전 방법들보다 동적/정적 분리 및 새로운 시점 합성에서 더 나은 성능을 달성합니다.

ABSTRACT

Given a monocular video, segmenting and decoupling dynamic objects while recovering the static environment is a widely studied problem in machine intelligence. Existing solutions usually approach this problem in the image domain, limiting their performance and understanding of the environment. We introduce Decoupled Dynamic Neural Radiance Field (D$^2$NeRF), a self-supervised approach that takes a monocular video and learns a 3D scene representation which decouples moving objects, including their shadows, from the static background. Our method represents the moving objects and the static background by two separate neural radiance fields with only one allowing for temporal changes. A naive implementation of this approach leads to the dynamic component taking over the static one as the representation of the former is inherently more general and prone to overfitting. To this end, we propose a novel loss to promote correct separation of phenomena. We further propose a shadow field network to detect and decouple dynamically moving shadows. We introduce a new dataset containing various dynamic objects and shadows and demonstrate that our method can achieve better performance than state-of-the-art approaches in decoupling dynamic and static 3D objects, occlusion and shadow removal, and image segmentation for moving objects.

연구 동기 및 목표

단일 카메라 비디오로부터 움직이는 객체와 그 그림자를 정적 배경으로부터 분리하여 분리된 3D 장면을 회복하려는 동기.
새로운 시점에서 정적 구성요소와 동적 구성요소를 개별적으로 렌더링할 수 있는 자기 감독 신경 표현을 개발한다.
정적/배경 radiance가 오염되지 않도록 동적 그림자를 명시적으로 처리한다.
시간에 따라 변하는 그림자 효과를 모델링하고 제거하기 위해 그림자 필드를 도입한다.
최신 방법들에 비해 향상된 분리 및 배경 재구성을 보여주는 데이터셋과 평가를 제공한다.

제안 방법

정적 씬은 F^S, 동적 씬은 F^D로 분리된 neural radiance fields로 표현하며, 동적 구성요소에는 프레임별 시간 잠재 코드(time latent codes)를 사용한다.
카메라 광선에 따라 두 필드의 기여를 적분하여 부피 렌더링으로 색상을 합성한다.
광선 따라 정적 밀도와 동적 밀도의 깔끔한 분리를 촉진하기 위해 편향된 엔트로피 손실을 도입한다(동적 구성요소의 과적합을 해소).
정적 radiance에 영향을 주는 그림자 감쇠를 모델링하는 그림자 필드 네트워크 ρ를 추가하고 어둠을 과하게 설명하지 않도록 그림자 정규화 항을 포함한다.
단일 카메라 모션 시나리오에서 정적 배경 회복을 안정화하기 위해 광선별 밀도 정규화(L_r)와 광선-밀도 분포 프라이어(L_{σ^S})를 도입한다.
렌더링 중에는 동적 radiance 기여를 더하기 전에 정적 radiance에 (1 − ρ)를 곱하여 그림자를 반영한다.

실험 결과

연구 질문

RQ1단일 단안 비디오에서 자기 감독 3D 표현이 동적 및 정적 장면 구성요소를 분리할 수 있는가?
RQ2이동하는 객체의 그림자를 정적 배경 재구성이 정확하게 유지되도록 어떻게 모델링할 수 있는가?
RQ3동적 NeRF가 정적 씬 내용을 흡수하는 것을 방지하기 위해 어떤 규제항이 필요한가?
RQ4동적 가려짐 및 그림자를 제거하면서 정적 배경의 고품질 신규 시점 합성을 달성할 수 있는가?
RQ5제안된 접근 방식이 빠른 모션과 움직이는 그림자를 가진 실제 단일 카메라 비디오에 일반화되는가?

주요 결과

정적 배경의 신규 시점 합성 측면에서 단일 카메라 비디오에서 동적 객체와 그림자의 분리에 대해 최신 방법들보다 우수하다.
동적 가림체와 그림자를 제거하면서 정적 환경의 3D 재구성이 향상되었음을 시연한다.
편향된 엔트로피 손실은 효과적인 정적/동적 분리 및 동적 구성요소의 과적합 완화에 결정적이다.
그림자 필드는 모션과 상관된 대형 그림자를 명시적 조명 모델 변경 없이 제거할 수 있게 한다.
동적 객체와 움직이는 그림자를 포함하는 새로운 데이터셋이 합성 및 실제 환경에서의 평가를 지원한다.
정성적 결과는 2D 이미지에서 더 선명한 정적 배경과 정확한 동적 객체 분할을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.