QUICK REVIEW

[논문 리뷰] A Large RGB-D Dataset for Semi-supervised Monocular Depth Estimation

Jae Hoon Cho, Dongbo Min|arXiv (Cornell University)|2019. 04. 23.

Advanced Vision and Imaging참고 문헌 65인용 수 25

한 줄 요약

이 논문은 학생-교수 프레임워크를 사용하여 반감독 학습 기반 단안 심도 추정 방법을 제안한다: 깊은 스테레오 매칭 네트워크(교수)가 백만 장의 이미지로 구성된 실외 스테레오 데이터셋에서 고품질의 가짜 심도 맵을 생성하며, 이는 앙상블 예측과 스테레오 신뢰도 맵을 통해 정제되어 경량의 단안 심도 네트워크(학생)를 훈련시킨다. 이 방법은 최첨단 성능을 달성하며, 의미적으로 유의미한 특징을 생성하여 의미 분할 및 도로 탐지와 같은 후속 작업에 활용 가능하다.

ABSTRACT

Current self-supervised methods for monocular depth estimation are largely based on deeply nested convolutional networks that leverage stereo image pairs or monocular sequences during a training phase. However, they often exhibit inaccurate results around occluded regions and depth boundaries. In this paper, we present a simple yet effective approach for monocular depth estimation using stereo image pairs. The study aims to propose a student-teacher strategy in which a shallow student network is trained with the auxiliary information obtained from a deeper and more accurate teacher network. Specifically, we first train the stereo teacher network by fully utilizing the binocular perception of 3-D geometry and then use the depth predictions of the teacher network to train the student network for monocular depth inference. This enables us to exploit all available depth data from massive unlabeled stereo pairs. We propose a strategy that involves the use of a data ensemble to merge the multiple depth predictions of the teacher network to improve the training samples by collecting non-trivial knowledge beyond a single prediction. To refine the inaccurate depth estimation that is used when training the student network, we further propose stereo confidence-guided regression loss that handles the unreliable pseudo depth values in occlusion, texture-less region, and repetitive pattern. To complement the existing dataset comprising outdoor driving scenes, we built a novel large-scale dataset consisting of one million outdoor stereo images taken using hand-held stereo cameras. Finally, we demonstrate that the monocular depth estimation network provides feature representations that are suitable for high-level vision tasks. The experimental results for various outdoor scenarios demonstrate the effectiveness and flexibility of our approach, which outperforms state-of-the-art approaches.

연구 동기 및 목표

단안 심도 추정에서 밀도 높고 고품질의 심도 지도 데이터의 부족 문제를 대규모 스테레오 이미지 쌍을 활용하여 해결하고자 한다.
자기지도 학습 방법이 일반적으로 실패하는 가림 영역 및 무문자 영역에서의 심도 추정 정확도를 향상시키고자 한다.
비용이 많이 드는 진짜 심도 지도 맵에 대한 의존도를 줄이기 위해 반감독 훈련 전략을 개발하고자 한다.
강건한 심도 추정을 지원하기 위해 대규모이고 다양한 실외 스테레오 데이터셋을 구축하고자 한다.
단안 심도 예측이 의미 분할 및 도로 탐지와 같은 고수준 시각 응용 과제에 강력한 프록시 과제로 기능할 수 있음을 입증하고자 한다.

제안 방법

소규모 진짜 심도 맵에 기반해 훈련된 깊은 스테레오 매칭 네트워크가 교수 네트워크로 기능한다.
교수 네트워크가 DIML/CVL 데이터셋의 막대한 수의 레이블이 없는 스테레오 이미지 쌍에서 가짜 진짜 심도 맵을 생성한다.
교수 네트워크의 다중 스케일 예측 앙상블이 융합되어 더 정확하고 강건한 가짜 심도 맵을 생성한다.
신뢰도가 낮은 영역(예: 가림 영역, 무문자 영역 등)을 식별하고 훈련 손실을 안내하기 위해 스테레오 신뢰도 맵을 생성한다.
스테레오 신뢰도 유도 회귀 손실을 도입하여 학생 네트워크 훈련 시 신뢰도가 낮은 영역에서의 지도 학습을 감소시킨다.
경량의 단안 심도 추정기인 학생 네트워크가 가짜 심도 맵과 신뢰도 유도 손실을 사용하여 다양한 실외 환경에 일반화할 수 있도록 훈련된다.

실험 결과

연구 질문

RQ1밀도 높은 진짜 심도 지도 맵에 의존하지 않고도 스테레오 매칭에서 단안 심도 추정으로 지식을 효과적으로 전이할 수 있는가?
RQ2앙상블 예측과 신뢰도 맵은 도전적인 영역에서 가짜 심도 지도의 품질을 어떻게 향상시킬 수 있는가?
RQ3기본 자기지도 학습 방법과 비교했을 때, 제안된 방법은 가림 영역 및 무문자 영역에서의 아티팩트를 어느 정도 줄일 수 있는가?
RQ4이 방법을 통해 훈련된 단안 심도 추정은 의미 분할 및 도로 탐지와 같은 고수준 시각 과제에 강력한 프록시 과제로 기능할 수 있는가?
RQ5기준 데이터셋에서 제안된 방법의 성능은 최첨단 접근 방식과 비교해 어떻게 되는가?

주요 결과

제안된 방법은 실외 기준 데이터셋에서 최첨단 자기지도 학습 기반 단안 심도 추정 방법을 능가하며, 더 높은 심도 정확도와 선명한 경계를 달성한다.
제안된 방법을 사용해 사전 훈련한 모델은 Cityscapes 의미 분할 기준에서 평균 IoU 65.47%를 기록했으며, ImageNet 사전 훈련과 유사한 성능을 보였다.
KITTI 도로 탐지 기준에서 모델은 Fmax 95.65%와 AP 94.46%를 달성했으며, 초기 학습 모델과 ImageNet 사전 훈련 모델을 모두 초월했다.
앙성 예측과 스테레오 신뢰도 맵의 사용은 특히 가림 영역 및 무문자 영역에서 가짜 심도 품질을 크게 향상시켰다.
이 프레임워크를 통해 훈련된 단안 심도 네트워크는 의미적으로 유의미한 특징을 생성하며, 후속 과제로의 강력한 전이 가능성을 보였다.
비용이 많이 드는 LiDAR 데이터에 대한 의존도를 줄이며, 소량의 진짜 심도 지도와 대규모 스테레오 데이터셋만으로도 최첨단 성능을 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.