QUICK REVIEW

[논문 리뷰] Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue

Ravi Garg, Vijay Kumar Bg|arXiv (Cornell University)|2016. 03. 16.

Advanced Vision and Imaging참고 문헌 27인용 수 319

한 줄 요약

이 논문은 왼쪽 스테레오 이미지로부터 단일 시점을 깊이 맵 하나를 예측하도록 학습하는 완전한 자가감독 CNN을 제시합니다. 이는 예측된 시차를 사용하여 오른쪽 이미지에서 왼쪽 이미지를 재구성함으로써 지상-truth 깊이가 없어도 엔드-투-엔드 학습이 가능하게 합니다.

ABSTRACT

A significant weakness of most current deep Convolutional Neural Networks is the need to train them using vast amounts of manu- ally labelled data. In this work we propose a unsupervised framework to learn a deep convolutional neural network for single view depth predic- tion, without requiring a pre-training stage or annotated ground truth depths. We achieve this by training the network in a manner analogous to an autoencoder. At training time we consider a pair of images, source and target, with small, known camera motion between the two such as a stereo pair. We train the convolutional encoder for the task of predicting the depth map for the source image. To do so, we explicitly generate an inverse warp of the target image using the predicted depth and known inter-view displacement, to reconstruct the source image; the photomet- ric error in the reconstruction is the reconstruction loss for the encoder. The acquisition of this training data is considerably simpler than for equivalent systems, requiring no manual annotation, nor calibration of depth sensor to camera. We show that our network trained on less than half of the KITTI dataset (without any further augmentation) gives com- parable performance to that of the state of art supervised methods for single view depth estimation.

연구 동기 및 목표

비용이 많이 드는 깊이 주석을 피하기 위해 단일 시점 깊이 추정에 대한 자가 지도 학습의 필요성을 동기화한다.
CNN이 깊이 맵을 예측하고 이를 이용해 오른쪽 이미지를 왼쪽으로 워핑하여 재구성하는 스테레오 기반 오토인코더를 제안한다.
지상-truth 깊이 데이터 없이 KITTI에서 처음부터 엔드-투-엔드 학습을 시연한다.
스킵 연결과 대략적-정교한(coarse-to-fine) 학습이 깊이 예측 품질을 향상시킨다는 것을 보인다.
데이터 증강 및 미세 조정(정교화)에 대한 이점과 최신 supervised 방법과의 대조를 평가한다.

제안 방법

카메라 운동이 알려진 스테레오 쌍을 사용하여 소스(왼쪽) 이미지의 깊이 맵을 예측하는 CNN을 학습한다.
예측된 깊이와 알려진 시차를 사용하여 오른쪽 이미지를 역방향으로 워핑해 왼쪽 이미지를 재구성하고, 광도 재구성 손실을 최적화한다.
개구 문제(aperture problem)를 다루기 위해 시차에 단순한 스무스니스 우선순위를 적용한다.
해상도 간 깊이 예측을 다듬기 위해 스킵 연결이 있는 대략적-정교한(coarse-to-fine) 아키텍처를 채택한다.
워핑을 Taylor 전개로 선형화하여 역전파를 가능하게 하고 다수의 학습 단계에서 반복적 보정(refinement)을 수행한다.
다단계 업샘플링(L7에서 L12)으로 학습하고 나중에 데이터 증강(색상, 스케일, 뒤집기)으로 미세 조정한다.

실험 결과

연구 질문

RQ1스테레오 기하학을 사용하여 단일 시점에서 깊이를 예측하기 위해 완전히 자가 지도 방식으로 처음부터 끝까지 학습된 CNN을 학습시킬 수 있는가?
RQ2자가인코더와 같은 워핑으로부터의 광도 재구성 손실이 지상-truth 깊이 없이도 경쟁력 있는 깊이 예측을 제공하는가?
RQ3대략적-정교한 학습(coarse-to-fine)과 스킵 연결이 자가 지도 설정에서 깊이 정확도에 어떤 영향을 미치는가?
RQ4자가 지도 방식이 KITTI에서 supervised 단일 시점 깊이 방법 및 스테레오 기반 기준선과 어떻게 비교되는가?
RQ5데이터 증강과 미세 조정이 자가 지도 단일 시점 깊이 추정 성능을 향상시킬 수 있는가?

주요 결과

자가 지도 CNN이 스테레오 쌍에서 학습되며 KITTI에서 최첨단 supervised 방법과 비교하여 깊이 예측에서 경쟁력을 얻는다.
스킵 연결이 있는 대략적-정교한 학습은 해상도가 높아질수록 깊이 맵을 점차 개선시킨다.
데이터 증강과 사후 미세 조정은 모서리 위치화와 전반적인 깊이 정확도를 더 향상시킨다.
완전한 자가 지도이며 초기화가 필요 없는 이 방법은 지상-truth 깊이 없이도 supervised 성능에 근접할 수 있다.
스테레오 기반 CNN 대조 기준선에 비해 자가 지도 오토인코더 접근법은 프록시 지상-truth 시차에서의 학습 편향을 피하고 물체 가장자리 근처의 깊이 오차를 줄인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.