[논문 리뷰] Deep Ordinal Regression Network for Monocular Depth Estimation
이 논문은 spacing-increasing discretization (SID)과 ordinal regression 손실을 사용하는 단안 깊이 추정용 Deep Ordinal Regression Network (DORN)을 제시하여, 무거운 공간 풀링을 피하는 경량의 다중 스케일 아키텍처로 여러 벤치마크에서 최첨단 결과를 달성한다.
Monocular depth estimation, which plays a crucial role in understanding 3D scene geometry, is an ill-posed problem. Recent methods have gained significant improvement by exploring image-level information and hierarchical features from deep convolutional neural networks (DCNNs). These methods model depth estimation as a regression problem and train the regression networks by minimizing mean squared error, which suffers from slow convergence and unsatisfactory local solutions. Besides, existing depth estimation networks employ repeated spatial pooling operations, resulting in undesirable low-resolution feature maps. To obtain high-resolution depth maps, skip-connections or multi-layer deconvolution networks are required, which complicates network training and consumes much more computations. To eliminate or at least largely reduce these problems, we introduce a spacing-increasing discretization (SID) strategy to discretize depth and recast depth network learning as an ordinal regression problem. By training the network using an ordinary regression loss, our method achieves much higher accuracy and \dd{faster convergence in synch}. Furthermore, we adopt a multi-scale network structure which avoids unnecessary spatial pooling and captures multi-scale information in parallel. The method described in this paper achieves state-of-the-art results on four challenging benchmarks, i.e., KITTI [17], ScanNet [9], Make3D [50], and NYU Depth v2 [42], and win the 1st prize in Robust Vision Challenge 2018. Code has been made available at: https://github.com/hufu6371/DORN.
연구 동기 및 목표
- 단안 깊이 추정의 ill-posed 특성 해결.
- MSE 손실로 표준 회귀보다 학습 수렴 및 최종 정확도 향상.
- 공간 풀링을 과도하게 사용하지 않고 해상도가 높은 다중 스케일 아키텍처로 설계.
- 깊이 네트워크를 end-to-end로 학습시키기 위해 spacing-increasing discretization 전략과 ordinal regression 손실 도입.
- 네 가지 도전적인 깊이 벤치마크에서 최첨단 성능을 보여주고 깊이 이산화 및 네트워크 설계에 대한 실용적 지침 제공
제안 방법
- 연속 깊이 값을 uniform discretization (UD) 대신 spacing-increasing discretization (SID)으로 구간화.
- 깊이 추정을 ordinal regression 문제로 보고 레이블 순서를 고려한 맞춤형 ordinal regression 손실로 최적화.
- 해상도를 보존하는 dilated-convolution 기반의 dense feature extractor를 채택하고 마지막 다운샘플링 레이어를 제거하여 공간 세부 정보를 잃지 않음.
- 전역 및 다중 스케일 정보를 포획하기 위해 다중 스케일 장면 이해 모듈(다수의 dilation 속도의 ASPP, 채널 간 교차 브랜치, 경량의 전체 이미지 인코더)을 포함.
- 스테이지별 학습이나 반복적 정제를 사용하지 않고 네트워크를 엔드-투-엔드로 학습.
- 가장 가능성이 높은 ordinal 라벨 주위의 구간 임계값을 평균 내어 예측된 이산 깊이를 해독합니다.
실험 결과
연구 질문
- RQ1SID 이산화와 ordinal regression이 회귀 기반 학습에 비해 깊이 추정 정확도와 수렴에 미치는 영향은 무엇인가?
- RQ2확대 가능한 dilated convolution 기반 아키텍처와 강한 풀링 제거가 깊이 맵 품질 및 계산에 미치는 영향은 무엇인가?
- RQ3제안된 전체 이미지 인코더가 다른 글로벌 컨텍스트 전략에 비해 성능에 어떻게 기여하는가?
- RQ4SID에서 사용되는 깊이 구간 수가 성능에 얼마나 민감한가?
- RQ5성능이 outdoor 및 indoor 벤치마크 데이터셋(KITTI, ScanNet, Make3D, NYU Depth v2) 전반에 일반화되는가?
주요 결과
- DORN은 KITTI, ScanNet, Make3D, NYU Depth v2 벤치마크에서 최첨단 결과를 달성한다.
- SID는 깊이 추정 성능에서 uniform discretization보다 우수하다.
- 정렬된 깊이 구간을 갖는 ordinal regression 손실은 일반적인 회귀 손실보다 수렴 및 정확도를 향상시킨다.
- 압축된 전체 이미지 인코더는 매개변수를 크게 줄이면서 fc 기반 전체 이미지 방식과 동등하거나 더 나은 성능을 제공한다.
- 마지막 풀링 레이어를 제거하고 dilated convolutions를 사용하면 다중 스케일 융합 없이도 해상도가 높은 깊이 맵을 얻을 수 있다.
- 이 방법은 outdoor 및 indoor 데이터셋에서 잘 작동하며 온라인 평가 서버에서도 좋은 순위를 차지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.