QUICK REVIEW

[논문 리뷰] HMS-Net: Hierarchical Multi-scale Sparsity-invariant Network for Sparse Depth Completion

Huang, Zixuan, Fan, Junming|arXiv (Cornell University)|2018. 08. 27.

Advanced Vision and Imaging참고 문헌 46인용 수 13

한 줄 요약

HMS-Net는 세 가지 새로운 스파arsity-인variant 연산—스파arsity-인variant 업샘플링, 평균, 및 컨볼루션과 함께 연결—을 갖춘 계층적 다중스케일 인코더-디코더 네트워크를 제안하여 희박한 깊이 입력과 특징 맵을 효과적으로 처리한다. 이 방법은 KITTI 및 NYU-depth-v2 벤치마크에서 최신 기술 성능을 달성하였으며, RGB를 사용하지 않는 메서드 중 1위, RGB 가이드된 메서드 중 2위를 기록하였다.

ABSTRACT

Dense depth cues are important and have wide applications in various computer vision tasks. In autonomous driving, LIDAR sensors are adopted to acquire depth measurements around the vehicle to perceive the surrounding environments. However, depth maps obtained by LIDAR are generally sparse because of its hardware limitation. The task of depth completion attracts increasing attention, which aims at generating a dense depth map from an input sparse depth map. To effectively utilize multi-scale features, we propose three novel sparsity-invariant operations, based on which, a sparsity-invariant multi-scale encoder-decoder network (HMS-Net) for handling sparse inputs and sparse feature maps is also proposed. Additional RGB features could be incorporated to further improve the depth completion performance. Our extensive experiments and component analysis on two public benchmarks, KITTI depth completion benchmark and NYU-depth-v2 dataset, demonstrate the effectiveness of the proposed approach. As of Aug. 12th, 2018, on KITTI depth completion leaderboard, our proposed model without RGB guidance ranks first among all peer-reviewed methods without using RGB information, and our model with RGB guidance ranks second among all RGB-guided methods.

연구 동기 및 목표

자율주행 및 로봇 공학에서 희박한 LIDAR 입력으로부터 밀도 높은 깊이 맵을 생성하는 과제를 해결한다.
기존의 CNN과 이전의 스파arsity-인variant 컨볼루션의 한계를 극복하여 공간 해상도를 손실하고 다중스케일 특징을 효과적으로 융합하지 못하는 문제를 해결한다.
스파arsity 마스크를 유지하고 인코더-디코더 아키텍처에서 효과적인 다중스케일 특징 융합을 가능하게 하는 새로운 연산을 설계한다.
RGB 특징을 통합하여 가이드 역할을 하되, 입력의 희박성과 노이즈에 강건성을 유지하면서 깊이 복원 정확도를 향상시킨다.
다양한 손상 수준과 희박성 수준에서 공개 벤치마크에서 뛰어난 성능과 강건성을 입증한다.

제안 방법

스파arsity-인variant 연산 세 가지를 제안: 스파arsity-인variant 업샘플링, 스파arsity-인variant 평균, 컨볼루션과 함께 통합된 스파arsity-인variant 연결.
모든 레이어에서 스파arsity 마스크를 사용하여 비영인 특징 위치를 추적하고 전방 및 역방향 전파를 안내한다.
스킵 연결을 통해 저수준 및 고수준 특징을 융합하는 계층적 다중스케일 인코더-디코더 네트워크(HMS-Net)를 설계한다.
메인 네트워크에서 RGB를 사용하지 않고도 RGB 특징을 모odal 특화 브랜치를 통해 통합하여 깊이 복원을 향상시킨다.
배치 정규화 및 맥스 풀링 레이어를 적용하여 훈련을 안정화하고 매우 희박한 입력에서의 특징 학습을 향상시킨다.
KITTI 및 NYU-depth-v2에서 L1 및 L2 손실을 사용하여 엔드 투 엔드로 훈련하고, 가우시안 노이즈 및 랜덤 포인트 드롭아웃을 포함한 데이터 증강 기법을 적용한다.

실험 결과

연구 질문

RQ1스파arsity-인variant 연산은 희박한 깊이 복원을 위한 인코더-디코더 네트워크에서 효과적인 다중스케일 특징 융합을 가능하게 하는가?
RQ2제안된 HMS-Net 아키텍처는 기존의 CNN 및 이전의 스파arsity-인variant 모델에 비해 정확도와 강건성 측면에서 어떻게 비교되는가?
RQ3희박한 LIDAR 입력과 결합했을 때 RGB 특징이 깊이 복원 성능 향상에 얼마나 기여하는가?
RQ4이러한 방법은 다양한 수준의 입력 희박성과 센서 노이즈(예: 가우시안 노이즈, 가림)에 대해 얼마나 강건한가?
RQ5스파arsity 인식 연산을 갖춘 계층적 다중스케일 설계는 더 나은 경계 보존과 잡음 감소를 이끌어내는가?

주요 결과

KITTI 깊이 복원 벤치마크에서 RGB 가이드 없이도 HMS-Net는 모든 검토된 RGB를 사용하지 않는 메서드 중 최고 성능을 기록하여 1위를 차지하였다.
2018년 8월 12일 기준으로 KITTI 랭킹에서 RGB 가이드된 메서드 중 HMS-Net는 2위를 기록하였다.
NYU-depth-v2 데이터셋에서 모든 테스트된 희박성 수준(N = 20, 50, 200)에서 비교된 모든 방법보다 낮은 RMSE와 REL을 기록하였으며, N=200일 때 RMSE는 0.233, REL은 0.044였다.
장면 수준 및 영역 수준의 가우시안 노이즈, 랜덤 포인트 드롭아웃에 대해 뛰어난 강건성을 보였으며, 모든 손상 조건에서 SparseConvs와 IP-Basic를 능가하였다.
입력 깊이 포인트의 최대 90%가 제거된 상황에서도 높은 성능을 유지하여 극도로 희박한 입력에 대한 강력한 내성성을 보였다.
성능 분석 결과, 제안된 스파arsity-인variant 연산과 다중스케일 인코더-디코더 아키텍처가 성능 향상에 결정적인 역할을 하며, 특히 객체 경계 보존과 노이즈 감소에 기여함을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.