QUICK REVIEW

[논문 리뷰] Robust Semi-Supervised Monocular Depth Estimation with Reprojected Distances

Vitor Guizilini, Jie Li|arXiv (Cornell University)|2019. 10. 03.

Advanced Vision and Imaging인용 수 24

한 줄 요약

이 논문은 자기지도 학습 프레임워크에 희박한 LiDAR 깊이 레이블을 통합하기 위해 자기지도 학습 광학 손실과 새로운 재투영 거리 손실을 조합한 새로운 준지도 학습 단안 깊이 추정 방법을 제안한다. 이 방법은 이미지당 100개 미만의 깊이 값만을 가지는 4개의 LiDAR 빔을 사용하여 최신 기술 수준의 성능을 달성하며, 매우 희박한 지도 학습이 스케일을 안정적으로 锚정하면서도 비디오 시퀀스로부터 국소 기하학적 정확도를 유지할 수 있음을 보여준다.

ABSTRACT

Dense depth estimation from a single image is a key problem in computer vision, with exciting applications in a multitude of robotic tasks. Initially viewed as a direct regression problem, requiring annotated labels as supervision at training time, in the past few years a substantial amount of work has been done in self-supervised depth training based on strong geometric cues, both from stereo cameras and more recently from monocular video sequences. In this paper we investigate how these two approaches (supervised & self-supervised) can be effectively combined, so that a depth model can learn to encode true scale from sparse supervision while achieving high fidelity local accuracy by leveraging geometric cues. To this end, we propose a novel supervised loss term that complements the widely used photometric loss, and show how it can be used to train robust semi-supervised monocular depth estimation models. Furthermore, we evaluate how much supervision is actually necessary to train accurate scale-aware monocular depth models, showing that with our proposed framework, very sparse LiDAR information, with as few as 4 beams (less than 100 valid depth values per image), is enough to achieve results competitive with the current state-of-the-art.

연구 동기 및 목표

비디오에서의 기하학적 일관성과 스케일 지도 학습을 조합하여 지도 학습과 자기지도 학습 간 격차를 해소한다.
고빔 수 센서에 대한 의존도를 줄이기 위해 극도로 희박한 LiDAR 데이터를 사용한 정확한 깊이 추정을 가능하게 한다.
재투영 거리 기반의 새로운 미분 가능한 손실을 도입하여 자기지도 학습 단안 깊이 모델의 정밀도와 스케일 정확도를 향상시킨다.
실세계 상황에서 경쟁적인 깊이 추정 성능을 달성하기 위해 필요한 최소 지도 학습의 양을 평가한다.

제안 방법

이미지 공간에서 재투영된 깊이 예측값과 진짜 LiDAR 점 사이의 L2 거리 최소화를 목표로 하는 새로운 지도 학습 손실 항목을 도입한다.
이 재투영 거리 손실을 표준 광학 손실과 함께 준지도 학습 틀에서 공동 최적화에 통합한다.
광학 손실과 동일한 기하학적 제약 조건을 갖도록 이미지 공간 내 재투영을 사용하여 손실이 엔드 투 엔드로 미분 가능하도록 보장한다.
저해상도 LiDAR를 시뮬레이션하기 위해 빔 희박화 전략을 적용하며, 빔 분포에 대한 민감도 평가를 위해 오프셋 변동도 고려한다.
자기지도 학습 광학 손실을 사용해 레이블이 없는 비디오 시퀀스에서 단안 깊이 네트워크를 엔드 투 엔드로 훈련하면서, 새로운 손실을 통해 희박한 깊이 레이블을 통합한다.
데이터 증강과 확률적 훈련을 활용하여 다양한 빔 구성과 희박 수준에서의 강인성을 평가한다.

실험 결과

연구 질문

RQ1몇 개의 LiDAR 빔만으로도 자기지도 학습 단안 깊이 모델이 높은 정확도를 달성할 수 있는가?
RQ2희박한 깊이 레이블의 공간적 분포가 모델 성능과 수렴에 어떤 영향을 미치는가?
RQ3제안된 재투영 거리 손실이 표준 자기지도 학습 훈련 대비 스케일 정확도와 국소 기하학적 정밀도를 향상시키는가?
RQ4경쟁적인 깊이 추정 성능을 달성하기 위해 필요한 LiDAR 빔의 최소 수는 얼마인가?

주요 결과

이미지당 100개 미만의 유효 깊이 값(4개의 LiDAR 빔)만으로 KITTI 데이터셋에서 경쟁적인 성능을 달성하였으며, 절대 상대 오차(abs_rel)는 0.101 ± 0.007을 기록했다.
다양한 빔 분포에서도 강인한 성능을 유지하였으며, 극도로 희박한 경우에도 치명적인 실패 없이 작동했지만, 1개 또는 2개 빔일 경우 수렴이 불안정해졌다.
재투영 거리 손실이 스케일 정확도와 국소 세부 정보 정밀도를 크게 향상시켜, 희박한 레이블과 함께 사용했을 때 표준 자기지도 학습 기반 모델보다 뛰어난 성능을 보였다.
빔 수가 감소함에 따라 성능이 점진적으로 저하되었으며, 10개 빔일 경우 abs_rel은 0.249 ± 0.031로 증가했고, 1개 빔일 경우 수렴 문제 발생으로 안정적인 지도 학습의 실용적 하한선을 시사했다.
10개 빔일 경우 δ<1.25 정확도는 0.886 ± 0.013, 64빔 전체 지도 학습일 경우 0.932 ± 0.002를 기록하여 다양한 희박 수준에서 강력한 일반화 능력을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.