QUICK REVIEW

[논문 리뷰] Unsupervised Monocular Depth Estimation with Left-Right Consistency

Clément Godard, Oisin Mac Aodha|arXiv (Cornell University)|2016. 09. 13.

Advanced Vision and Imaging참고 문헌 56인용 수 32

한 줄 요약

이 논문은 진짜 깊이 데이터 대신 이원립 스테레오 영상 자료를 활용하여 비지도 학습 기반 단안 깊이 추정 방법을 제안한다. 새로운 손실 함수를 통해 훈련 중에 좌우 시차 일관성을 강제함으로써, KITTI 데이터셋에서 최신 기술 수준(SOTA) 성능을 달성하였으며, 일부 진짜 깊이 애너테이션을 사용한 지도 학습 방법을 뛰어넘기도 한다.

ABSTRACT

Learning based methods have shown very promising results for the task of depth estimation in single images. However, most existing approaches treat depth prediction as a supervised regression problem and as a result, require vast quantities of corresponding ground truth depth data for training. Just recording quality depth data in a range of environments is a challenging problem. In this paper, we innovate beyond existing approaches, replacing the use of explicit depth data during training with easier-to-obtain binocular stereo footage. We propose a novel training objective that enables our convolutional neural network to learn to perform single image depth estimation, despite the absence of ground truth depth data. Exploiting epipolar geometry constraints, we generate disparity images by training our network with an image reconstruction loss. We show that solving for image reconstruction alone results in poor quality depth images. To overcome this problem, we propose a novel training loss that enforces consistency between the disparities produced relative to both the left and right images, leading to improved performance and robustness compared to existing approaches. Our method produces state of the art results for monocular depth estimation on the KITTI driving dataset, even outperforming supervised methods that have been trained with ground truth depth.

연구 동기 및 목표

단안 깊이 모델 훈련을 위한 진짜 깊이 데이터의 부족성과 높은 비용 문제를 해결하기 위해.
진짜 깊이 감독 없이도 끝에서 끝까지 비지도 학습이 가능한 단순 스테레오 이미지 쌍만을 사용하기 위해.
좌측 및 우측 시점에서 예측한 시차 간의 일관성을 강제하여 깊이 추정 품질을 향상시키기 위해.
새로 수집한 도심 스테레오 데이터셋을 포함한 다양한 데이터셋으로의 일반화 능력을 입증하기 위해.
어느 정도의 진짜 깊이 감독 없이도 KITTI 및 Make3D 벤치마크에서 경쟁 가능한 성능을 달성하기 위해.

제안 방법

이 방법은 단일 이미지에서 시차 맵을 예측하기 위해 스테레오 이미지 쌍을 입력으로 사용하는 완전 컨volution 신경망을 훈련한다.
예측된 시차를 사용하여 오른쪽 이미지를 기울여 왼쪽 이미지를 재구성하는 가변적 워핑 기반의 이미지 재구성 손실을 적용한다.
좌측 이미지와 우측 이미지에서 예측된 시차가 상호 일관성이 있도록 하는 새로운 좌우 일관성 손실을 도입한다.
이미지 재구성 손실과 좌우 일관성 손실을 조합한 손실을 사용하여 네트워크를 끝에서 끝까지 엔드 투 엔드로 훈련한다.
예측된 깊이를 정제하기 위해 중앙값 필터링과 에지 인식 스무딩을 후처리로 적용한다.
새로운 데이터셋에 대해 스테레오 데이터만으로도 모델을 파라미터 조정함으로써, 새로운 환경으로의 일반화를 가능하게 한다.

실험 결과

연구 질문

RQ1진짜 깊이 감독 없이도 단안 깊이 추정을 효과적으로 학습시킬 수 있는가?
RQ2비지도 설정에서 좌우 시차 일관성 강제가 깊이 추정 품질을 어떻게 향상시키는가?
RQ3스테레오 데이터로 학습된 모델이 파라미터 조정 없이도 새로운, 알려지지 않은 데이터셋으로 일반화 가능한가?
RQ4제안된 방법이 실제 깊이 애너테이션을 사용한 지도 학습 기반 베이스라인을 뛰어넘는가?
RQ5반사, 투명성, 가림 등 도전 과제에 대해 이 방법은 얼마나 강건한가?

주요 결과

KITTI 2015 주행 데이터셋에서 최신 기술 수준(SOTA) 성능을 달성하였으며, 실제 깊이 데이터를 사용한 여러 지도 학습 방법을 뛰어넘었다.
KITTI 데이터셋에서 평균 제곱 오차(Sq Rel)는 15.517, 절대 상대 오차(Abs Rel)는 0.893, RMSE는 11.542, log10 오차는 0.223을 기록하였다.
Make3D 데이터셋에서는 Sq Rel이 11.990, Abs Rel이 0.535, RMSE가 11.513, log10 오차는 0.156를 기록하였으며, 비지도 기반 베이스라인을 초월하고, 일부 지도 학습 방법과 동등하거나 뛰어난 시각적 결과를 보였다.
CamVid 데이터셋과 새로 수집한 도심 스테레오 데이터셋으로의 일반화가 잘 되었으며, 재학습 없이도 시각적으로 타당한 깊이 맵을 생성하였다.
Cityscapes에서 미리 학습된 모델을 새로운 도심 데이터셋에 대해 파라미터 조정함으로써, 동일한 카메라로 촬영한 테스트 세트에서 매우 신뢰할 수 있는 깊이 예측 결과를 도출하였다.
좌우 일관성 손실은 특히 가림 경계나 기둥, 간판과 같은 얇은 구조물에서 재구성 전용 학습 대비 성능 향상이 뚜렷하게 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.