[논문 리뷰] Monocular Depth Estimation using Diffusion Models
이 논문은 Self-supervised 사전학습과 supervised 미세조정을 활용하는 단안 깊이 추정용 확산 모델 기반 접근법인 DepthGen을 소개한다. NYU에서 최첨단(SOTA) 결과를 달성하고 KITTI에서 경쟁력 있는 결과를 보이며, 다중 모달 깊이 추론 및 텍스트-3D 작업을 위한 깊이 보정(imputation)을 가능하게 한다.
We formulate monocular depth estimation using denoising diffusion models, inspired by their recent successes in high fidelity image generation. To that end, we introduce innovations to address problems arising due to noisy, incomplete depth maps in training data, including step-unrolled denoising diffusion, an $L_1$ loss, and depth infilling during training. To cope with the limited availability of data for supervised training, we leverage pre-training on self-supervised image-to-image translation tasks. Despite the simplicity of the approach, with a generic loss and architecture, our DepthGen model achieves SOTA performance on the indoor NYU dataset, and near SOTA results on the outdoor KITTI dataset. Further, with a multimodal posterior, DepthGen naturally represents depth ambiguity (e.g., from transparent surfaces), and its zero-shot performance combined with depth imputation, enable a simple but effective text-to-3D pipeline. Project page: https://depth-gen.github.io
연구 동기 및 목표
- 단안 깊이 추정을 확산 모델 문제로 기계적 확산 모델의 최근 성공 사례를 활용하여 다루는 것을 동기화한다.
- 깊이의 노이즈 및 불완전 데이터로 인한 학습 데이터 문제를 보정(infilling), L1 손실, 그리고 step-unrolled denoising diffusion을 통해 완화한다.
- 레이블 데이터가 제한된 상황에서의 자기지도(pre-training) 학습을 도입하여 제로샷 깊이 완성을 가능하게 하고 데이터 라벨링의 부담을 줄인다.
- 실내 NYU에서의 최첨단 성능 및 실외 KITTI에서의 경쟁력 있는 결과를 입증한다.
- 다중 모달 깊이 추론과 텍스트-3D, 새로운 시점 합성 등 다운스트림 작업에의 활용 가능성을 보여준다.]
- method:["조건부 확산 모델을 사용하여 x가 RGB이고 y가 깊이일 때 p(y|x)를 학습한다.","이미지 간 변환 작업(컬러리제이션, 인페인팅, 자르지 않기, JPEG 아티팩트 제거) 등에서 자기지도 Palette 스타일 확산 모델을 선행학습한다.","잡음이 있는 깊이에 강건함을 높이기 위해 L1 손실을 사용하여 RGB-D 데이터를 감독학습으로 미세조정한다.","깊이가 누락된 경우 깊이 보정(infilling; 최근접 이웃; 야외 데이터의 스카이 처리) 및 미세조정 중 SUD(step-unrolled denoising diffusion)를 적용한다.","학습 중에는 깊이 맵의 구멍을 보정하고 알려진 픽셀에서만 손실을 계산한다; 추론 중에는 학습/추론 분포를 정렬하기 위해 선택적으로 한 Forward 스텝을 언롤(unroll)하여 SUD를 적용한다.","평가 방법은 NYU의 표준 지표(REL, RMS, δ1/δ2/δ3, log10)와 KITTI의 표준 지표(REL, Sq-rel, RMS, RMS log)를 따른다."]
- research_questions:[
실험 결과
연구 질문
- RQ1확산 모델을 RGB 이미지로부터 단안 깊이 추정으로 효과적으로 적용할 수 있는가?
- RQ2학습 데이터의 노이즈가 많고 불완전한 깊이일 때 학습-추론 분포 간의 간격을 줄이기 위해 infilling, L1 손실, SUD와 같은 방법이 robust를 제공하는가?
- RQ3레이블 데이터가 부족할 때 자기지도 사전학습이 깊이 추정 성능을 향상시키며 supervised 미세조정과 어떻게 결합되는가?
- RQ4확산 기반 깊이 모델이 다중 모달 깊이 표현과 제로샷 깊이 완성(텍스트-3D 및 신시점 합성 같은 다운스트림 작업)을 지원하는가?
주요 결과
| 방법 | Delta1 | Delta2 | Delta3 | REL | RMS | log10 |
|---|---|---|---|---|---|---|
| DepthGen (NYU) samples=1 | 0.944 | 0.986 | 0.995 | 0.075 | 0.324 | 0.032 |
| DepthGen (NYU) samples=2 | 0.944 | 0.987 | 0.996 | 0.074 | 0.319 | 0.032 |
| DepthGen (NYU) samples=4 | 0.946 | 0.987 | 0.996 | 0.074 | 0.315 | 0.032 |
| DepthGen (NYU) samples=8 | 0.946 | 0.987 | 0.996 | 0.074 | 0.314 | 0.032 |
| DepthGen (KITTI) samples=1 | — | — | — | — | — | — |
| DepthGen (KITTI) samples=2 | — | — | — | — | — | — |
| DepthGen (KITTI) samples=4 | — | — | — | — | — | — |
| DepthGen (KITTI) samples=8 | — | — | — | — | — | — |
- DepthGen은 NYU Depth v2에서 REL 0.074의 최첨단 상대 오차를 달성한다.
- DepthGen은 KITTI에서 경쟁력이 있으며 보고된 지표에서 여러 베이스라인을 상회한다.
- 아블레이션 결과 자기지도 사전학습과 감독형 깊이 사전학습 둘 다 성능을 상당히 향상시키며(감독형 사전학습이 더 큰 기여),
- 깊이 보정(infilling)은 야외 KITTI에서 구멍을 줄이는 데 결정적이며 SUD는 구멍이 있을 때 결과를 더욱 향상시킨다.
- L1 손실은 노이즈가 있는 깊이에 대한 강건성에서 L2를 능가한다.
- DepthGen은 다중 모달 깊이 예측을 지원하여 깊이의 모호성(예: 투명/반사 영역)을 포착한다.
- 모델은 제로샷 깊이 완성 및 확산 기반 보정과 텍스트-3D 파이프라인과의 통합 가능성을 제공한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.