Skip to main content
QUICK REVIEW

[논문 리뷰] Robust Semi-Supervised Monocular Depth Estimation with Reprojected Distances

Vitor Guizilini, Jie Li|arXiv (Cornell University)|2019. 10. 03.
Advanced Vision and Imaging인용 수 24
한 줄 요약

이 논문은 자기지도 학습 프레임워크에 희박한 LiDAR 깊이 레이블을 통합하기 위해 자기지도 학습 광학 손실과 새로운 재투영 거리 손실을 조합한 새로운 준지도 학습 단안 깊이 추정 방법을 제안한다. 이 방법은 이미지당 100개 미만의 깊이 값만을 가지는 4개의 LiDAR 빔을 사용하여 최신 기술 수준의 성능을 달성하며, 매우 희박한 지도 학습이 스케일을 안정적으로 锚정하면서도 비디오 시퀀스로부터 국소 기하학적 정확도를 유지할 수 있음을 보여준다.

ABSTRACT

Dense depth estimation from a single image is a key problem in computer vision, with exciting applications in a multitude of robotic tasks. Initially viewed as a direct regression problem, requiring annotated labels as supervision at training time, in the past few years a substantial amount of work has been done in self-supervised depth training based on strong geometric cues, both from stereo cameras and more recently from monocular video sequences. In this paper we investigate how these two approaches (supervised & self-supervised) can be effectively combined, so that a depth model can learn to encode true scale from sparse supervision while achieving high fidelity local accuracy by leveraging geometric cues. To this end, we propose a novel supervised loss term that complements the widely used photometric loss, and show how it can be used to train robust semi-supervised monocular depth estimation models. Furthermore, we evaluate how much supervision is actually necessary to train accurate scale-aware monocular depth models, showing that with our proposed framework, very sparse LiDAR information, with as few as 4 beams (less than 100 valid depth values per image), is enough to achieve results competitive with the current state-of-the-art.

연구 동기 및 목표

  • 비디오에서의 기하학적 일관성과 스케일 지도 학습을 조합하여 지도 학습과 자기지도 학습 간 격차를 해소한다.
  • 고빔 수 센서에 대한 의존도를 줄이기 위해 극도로 희박한 LiDAR 데이터를 사용한 정확한 깊이 추정을 가능하게 한다.
  • 재투영 거리 기반의 새로운 미분 가능한 손실을 도입하여 자기지도 학습 단안 깊이 모델의 정밀도와 스케일 정확도를 향상시킨다.
  • 실세계 상황에서 경쟁적인 깊이 추정 성능을 달성하기 위해 필요한 최소 지도 학습의 양을 평가한다.

제안 방법

  • 이미지 공간에서 재투영된 깊이 예측값과 진짜 LiDAR 점 사이의 L2 거리 최소화를 목표로 하는 새로운 지도 학습 손실 항목을 도입한다.
  • 이 재투영 거리 손실을 표준 광학 손실과 함께 준지도 학습 틀에서 공동 최적화에 통합한다.
  • 광학 손실과 동일한 기하학적 제약 조건을 갖도록 이미지 공간 내 재투영을 사용하여 손실이 엔드 투 엔드로 미분 가능하도록 보장한다.
  • 저해상도 LiDAR를 시뮬레이션하기 위해 빔 희박화 전략을 적용하며, 빔 분포에 대한 민감도 평가를 위해 오프셋 변동도 고려한다.
  • 자기지도 학습 광학 손실을 사용해 레이블이 없는 비디오 시퀀스에서 단안 깊이 네트워크를 엔드 투 엔드로 훈련하면서, 새로운 손실을 통해 희박한 깊이 레이블을 통합한다.
  • 데이터 증강과 확률적 훈련을 활용하여 다양한 빔 구성과 희박 수준에서의 강인성을 평가한다.

실험 결과

연구 질문

  • RQ1몇 개의 LiDAR 빔만으로도 자기지도 학습 단안 깊이 모델이 높은 정확도를 달성할 수 있는가?
  • RQ2희박한 깊이 레이블의 공간적 분포가 모델 성능과 수렴에 어떤 영향을 미치는가?
  • RQ3제안된 재투영 거리 손실이 표준 자기지도 학습 훈련 대비 스케일 정확도와 국소 기하학적 정밀도를 향상시키는가?
  • RQ4경쟁적인 깊이 추정 성능을 달성하기 위해 필요한 LiDAR 빔의 최소 수는 얼마인가?

주요 결과

  • 이미지당 100개 미만의 유효 깊이 값(4개의 LiDAR 빔)만으로 KITTI 데이터셋에서 경쟁적인 성능을 달성하였으며, 절대 상대 오차(abs_rel)는 0.101 ± 0.007을 기록했다.
  • 다양한 빔 분포에서도 강인한 성능을 유지하였으며, 극도로 희박한 경우에도 치명적인 실패 없이 작동했지만, 1개 또는 2개 빔일 경우 수렴이 불안정해졌다.
  • 재투영 거리 손실이 스케일 정확도와 국소 세부 정보 정밀도를 크게 향상시켜, 희박한 레이블과 함께 사용했을 때 표준 자기지도 학습 기반 모델보다 뛰어난 성능을 보였다.
  • 빔 수가 감소함에 따라 성능이 점진적으로 저하되었으며, 10개 빔일 경우 abs_rel은 0.249 ± 0.031로 증가했고, 1개 빔일 경우 수렴 문제 발생으로 안정적인 지도 학습의 실용적 하한선을 시사했다.
  • 10개 빔일 경우 δ<1.25 정확도는 0.886 ± 0.013, 64빔 전체 지도 학습일 경우 0.932 ± 0.002를 기록하여 다양한 희박 수준에서 강력한 일반화 능력을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.