[논문 리뷰] P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior
P3Depth는 3D 평면에서 같은 평면을 공유하는 시드 픽셀을 식별하기 위해 평면 계수와 오프셋 벡터를 예측하는 조각별 평면성 사전 지식을 활용하는 지도 학습 기반 단안 깊이 추정 방법을 제안한다. 직접적 깊이 헤드와 평면성 유도 헤드의 예측을 학습된 신뢰도 맵을 통해 융합하여 NYU Depth-v2 및 KITTI에서 최신 기준 성능을 달성하며, 깊이 불연속성이 뚜렷하고 일관된 3D 재구성 결과를 제공한다.
Monocular depth estimation is vital for scene understanding and downstream tasks. We focus on the supervised setup, in which ground-truth depth is available only at training time. Based on knowledge about the high regularity of real 3D scenes, we propose a method that learns to selectively leverage information from coplanar pixels to improve the predicted depth. In particular, we introduce a piecewise planarity prior which states that for each pixel, there is a seed pixel which shares the same planar 3D surface with the former. Motivated by this prior, we design a network with two heads. The first head outputs pixel-level plane coefficients, while the second one outputs a dense offset vector field that identifies the positions of seed pixels. The plane coefficients of seed pixels are then used to predict depth at each position. The resulting prediction is adaptively fused with the initial prediction from the first head via a learned confidence to account for potential deviations from precise local planarity. The entire architecture is trained end-to-end thanks to the differentiability of the proposed modules and it learns to predict regular depth maps, with sharp edges at occlusion boundaries. An extensive evaluation of our method shows that we set the new state of the art in supervised monocular depth estimation, surpassing prior methods on NYU Depth-v2 and on the Garg split of KITTI. Our method delivers depth maps that yield plausible 3D reconstructions of the input scenes. Code is available at: https://github.com/SysCV/P3Depth
연구 동기 및 목표
- 실세계 3D 장면의 높은 규칙성, 특히 조각별 평면 구조를 활용하여 단안 깊이 추정을 향상시키기 위해.
- 국소 평면성 조건을 강제하는 기하학적 사전 지식을 통합하여 단안 깊이 추정의 척도 모호성을 해결하기 위해.
- 평면 영역에 따라 픽셀을 군집화하는 것을 암묵적으로 학습할 수 있는 기울기 가능하고 종단 간(end-to-end) 학습 가능한 아키텍처를 개발하기 위해.
- 표준 벤치마크에서 최신 기준 성능을 달성하면서도 제로샷 전이 설정에서도 잘 일반화되도록 하기 위해.
- 오염 경계에서 깊이 불연속성을 유지하여 고품질 3D 재구성에 적합한 깊이 맵을 생성하기 위해.
제안 방법
- 네트워크는 이중 헤드 아키텍처를 사용한다: 하나의 헤드는 각 픽셀에 대해 국소 3D 평면을 나타내는 조밀한 평면 계수 (a, b, c)를 예측한다.
- 두 번째 헤드는 조밀한 오프셋 벡터 필드 (dx, dy)와 신뢰도 맵을 예측하여 같은 평면에 속한 시드 픽셀을 식별한다.
- 시드 픽셀의 평면 계수는 예측된 오프셋을 사용하여 재샘플링되어 두 번째 깊이 예측을 생성한다.
- 두 깊이 예측은 신뢰도 맵을 학습 가능한 융합 가중치로 사용하여 국소 평면성에서 벗어나는 영역을 처리하기 위해 적응적으로 융합된다.
- 예측된 깊이 표면과 진짜 깊이 표면 간의 일阶 일致성을 강제하기 위해 평균 평면 손실이 도입된다.
- 모델 전체는 최종 융합된 깊이 예측에 대해서만 지도 학습을 받으며, 이는 오프셋과 신뢰도의 암묵적 지도 학습을 가능하게 한다.
실험 결과
연구 질문
- RQ1조각별 평면성 사전 지식을 통해 공면 픽셀 간의 정보 공유를 가능하게 하여 단안 깊이 추정을 향상시킬 수 있는가?
- RQ2명시적 지도 없이도 기울기 가능하고 종단 간 학습 가능한 네트워크가 같은 평면에 속한 시드 픽셀을 어떻게 식별할 수 있는가?
- RQ3직접 깊이 예측과 평면성 유도 예측 간의 적응적 융합이 깊이 정확도와 가장자리 선명도에 어떤 영향을 미치는가?
- RQ4제안된 평균 평면 손실이 일반화 능력과 표면 일관성에 어떤 기여를 하는가?
- RQ5모델은 미세조정 없이 제로샷 도메인으로도 효과적으로 일반화될 수 있는가?
주요 결과
- P3Depth는 NYU Depth-v2에서 모든 표준 지표에서 최신 기준 성능을 달성하여 A.Rel ↓ 0.104, RMSE ↓ 0.356, δ1 ↑ 0.898를 기록하였다.
- KITTI Garg 스플릿에서 P3Depth는 A.Rel ↓ 0.104, RMSE ↓ 0.356, δ1 ↑ 0.898로 최신 기준 성능을 달성하였다.
- 제로샷 전이 설정에서 P3Depth는 ScanNet, SUN-RGBD, DIODE Indoor, ETH-3D에서 이전 최신 기준 성능을 능가하였으며, 특히 RMSE와 δ1에서 뚜렷한 우수성을 보였다.
- 절단 실험 결과는 오프셋 기반 보정을 포함한 평면 계수 사용이 직접 깊이 예측보다 유의미한 성능 향상을 이끌어내며, RMSE가 0.458 → 0.356로 향상됨을 확인하였다.
- 평균 평면 손실은 절단 실험에서 이를 포함하지 않은 경우 대비 RMSE를 0.016 감소시켜 성능 향상을 추가로 확인하였다.
- 정성적 결과는 오염 경계에서 선명한 깊이 경계와 일관된 3D 재구성 결과를 보였으며, 변동하는 조명 조건이나 반사성 표면에서도 유사한 성능 유지를 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.