QUICK REVIEW

[논문 리뷰] Self-supervised Sparse-to-Dense: Self-supervised Depth Completion from LiDAR and Monocular Camera

Fangchang Ma, Guilherme V. Cavalheiro|arXiv (Cornell University)|2018. 07. 01.

Advanced Vision and Imaging참고 문헌 5인용 수 23

한 줄 요약

이 논문은 단일 RGB 영상과 흩어진 LiDAR 스캔을 사용하여 희박한 깊이에서 조밀한 깊이로의 보완을 위한 자기지도 학습 딥러닝 프레임워크를 제안한다. 이는 조밀한 깊이 레이블이 필요 없음을 의미한다. 이 방법은 KITTI 벤치마크에서 최신 기술 수준의 성능을 달성하였으며, 자기지도 학습이 반조밀한 레이블을 사용한 모델보다 우수하며, 입력 측정 수의 거듭제곱 함수에 따라 깊이 오차가 감소하는 것으로 나타났다.

ABSTRACT

Depth completion, the technique of estimating a dense depth image from sparse depth measurements, has a variety of applications in robotics and autonomous driving. However, depth completion faces 3 main challenges: the irregularly spaced pattern in the sparse depth input, the difficulty in handling multiple sensor modalities (when color images are available), as well as the lack of dense, pixel-level ground truth depth labels. In this work, we address all these challenges. Specifically, we develop a deep regression model to learn a direct mapping from sparse depth (and color images) to dense depth. We also propose a self-supervised training framework that requires only sequences of color and sparse depth images, without the need for dense depth labels. Our experiments demonstrate that our network, when trained with semi-dense annotations, attains state-of-the- art accuracy and is the winning approach on the KITTI depth completion benchmark at the time of submission. Furthermore, the self-supervised framework outperforms a number of existing solutions trained with semi- dense annotations.

연구 동기 및 목표

자율주행에서 흩어진, 불규칙한 간격의 LiDAR 스캔으로부터 깊이 보완 문제를 해결한다.
개선된 깊이 예측을 위해 RGB와 LiDAR 모odalities를 융합하는 데 어려움을 극복한다.
비용이 많이 들고 픽셀 수준의 조밀한 깊이 레이블이 필요한 의존도를 제거하기 위해 자기지도 학습 프레임워크를 도입한다.
오직 RGB와 흩어진 깊이 시퀀스만을 사용하여 KITTI 깊이 보완 벤치마크에서 최신 기술 수준의 정확도를 달성한다.
입력 깊이 측정 수와 예측 오차 간의 관계를 입증한다. 이는 거듭제곱 법칙 관계를 따른다.

제안 방법

희약한 깊이와 RGB 입력을 직접 조밀한 깊이 예측으로 매핑하는 딥 레지션 네트워크를 제안한다.
스테레오 또는 비디오 시퀀스를 활용하여 예측된 이미지와 관측된 이미지 간의 광학 일致성(photometric consistency)을 이용한 자기지도 학습 목표를 설계한다.
예측된 깊이와 카메라 파rameters를 사용하여 입력 RGB 이미지를 재구성함으로써, 깊이 예측을 위해 가역적 워핑 레이어를 활용한다.
조밀한 깊이 레이블이 전혀 없는 RGB와 흩어진 깊이 이미지 시퀀스만을 사용하여 네트워크를 종단 간(end-to-end)으로 학습시킨다.
예측 정확도 향상을 위해 공유 인코더 또는 후기 융합 메커니즘을 통해 흩어진 깊이 및 RGB 특징을 통합한다.
KITTI 깊이 보완 벤치마크에서 RMSE를 사용하여 성능을 평가하고, 반조밀한 지도 학습 및 비지도 기반 베이스라인과 비교한다.

실험 결과

연구 질문

RQ1조밀한 깊이 레이블이 필요 없이 자기지도 학습 프레임워크가 최신 기술 수준의 깊이 보완 정확도를 달성할 수 있는가?
RQ2자기지도 학습에서 RGB 영상의 포함 여부가 깊이 보완 성능에 어떤 영향을 미치는가?
RQ3깊이 보완에서 입력 깊이 측정 수와 예측 오차 간의 관계는 어떠한가?
RQ4희약한 깊이 샘플의 공간적 패턴(예: 스캔 라인 감소 대비 균일한 서브샘플링)이 최종 정확도에 어떤 영향을 미치는가?
RQ5자기지도 학습은 반조밀한 레이블을 사용한 지도 학습과 비교해 성능이 유사하거나 이를 초월하는가?

주요 결과

제안된 방법은 제출 당시 KITTI 깊이 보완 벤치마크에서 최신 기술 수준의 성능을 달성하였으며, 이전에 발표된 모든 방법보다 뛰어난 성능을 보였다.
자기지도 학습 프레임워크는 반조밀한 레이블을 사용해 학습된 몇몇 기존 솔루션보다 우수한 성능을 보였으며, 비지도 접근의 효과성을 입증하였다.
입력 깊이 측정 수의 거듭제곱 함수에 따라 깊이 보완 오차가 감소함을 확인하였으며, 이는 더 높은 LiDAR 해상도에서의 수익 감소를 시사한다.
균일한 무작위 서브샘플링은 스캔 라인을 줄이는 것보다 더 분산된 공간 분포를 가지므로 더 높은 정확도를 제공한다.
반조밀한 레이블을 사용한 학습에서 RGB 입력은 예측 오차를 크게 감소시켰으며, 특히 측정 수가 적을 경우에 두드러졌다.
자기지도 학습에서는 RGB 입력의 성능 향상 효과가 감소하는 경향이 있었으며, 이는 초기 수렴과 RGB 특징에 대한 네트워크 용량 감소 때문일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.