QUICK REVIEW

[논문 리뷰] PENet: Towards Precise and Efficient Image Guided Depth Completion

Mu Hu, Shuling Wang|arXiv (Cornell University)|2021. 03. 01.

Advanced Vision and Imaging참고 문헌 32인용 수 24

한 줄 요약

PENet는 희박한 깊이 맵과 고해상도 이미지에서 색상 지배적이고 깊이 지배적 특징을 별도로 추출하는 이중 브랜치 백본을 제안하며, 학습된 신뢰도 가중치를 사용해 양 브ран치의 예측을 적응적으로 융합합니다. 3D 공간 구조를 인코딩하기 위해 기하학적 컨볼루션 레이어를 도입하고, 효율적인 정밀 조정을 위해 확장된, 가속화된 CSPN++을 통합하여 KITTI 깊이 보완 벤치마크에서 빠른 추론과 함께 최신 기술 수준의 성능을 달성했으며, 온라인 랭킹 1위를 기록했습니다.

ABSTRACT

Image guided depth completion is the task of generating a dense depth map from a sparse depth map and a high quality image. In this task, how to fuse the color and depth modalities plays an important role in achieving good performance. This paper proposes a two-branch backbone that consists of a color-dominant branch and a depth-dominant branch to exploit and fuse two modalities thoroughly. More specifically, one branch inputs a color image and a sparse depth map to predict a dense depth map. The other branch takes as inputs the sparse depth map and the previously predicted depth map, and outputs a dense depth map as well. The depth maps predicted from two branches are complimentary to each other and therefore they are adaptively fused. In addition, we also propose a simple geometric convolutional layer to encode 3D geometric cues. The geometric encoded backbone conducts the fusion of different modalities at multiple stages, leading to good depth completion results. We further implement a dilated and accelerated CSPN++ to refine the fused depth map efficiently. The proposed full model ranks 1st in the KITTI depth completion online leaderboard at the time of submission. It also infers much faster than most of the top ranked methods. The code of this work is available at https://github.com/JUGGHM/PENet_ICRA2021.

연구 동기 및 목표

희박한 깊이 입력과 고해상도 색상 이미지로부터 정확하고 밀도 높은 깊이 맵을 생성하는 문제를 해결하기 위해.
색상과 깊이 간의 모odal 융합을 향상시키기 위해 색상 지배적 및 깊이 지배적 특징을 별도로 강조하는 이중 브랜치 네트워크를 설계함으로써.
외부 감독 또는 사전 훈련 없이도 컨볼루션 레이어에 직접 3D 기하 구조를 인코딩하여 특징 표현을 향상시키기 위해.
가벼운, 가속화된 CSPN++의 변형을 사용해 융합된 깊이 예측을 효율적으로 정밀 조정함으로써 고속 추론을 달성하기 위해.
정확도와 계산 효율성의 두 지표에서 모두 기존 방법을 능가하는 성능을 달성하기 위해.

제안 방법

이 방법은 이중 브랜치 백본을 사용한다: 색상 지배적(CD) 브랜치는 색상 이미지와 희박한 깊이 맵을 처리하여 무늬와 경계에 민감한 밀도 높은 깊이 맵을 예측한다.
깊이 지배적(DD) 브랜치는 희박한 깊이 맵과 CD 브랜치의 예측을 입력으로 받아, 구조적 일관성을 강조하지만 가장자리 부근에서 노이즈가 발생하기 쉬운 두 번째 밀도 높은 깊이 맵을 생성한다.
두 예측된 깊이 맵은 학습 가능한 신뢰도 가중치를 사용해 적응적으로 융합되어 상호 보완적인 강점을 조합한다.
각 컨볼루션 레이어의 입력에 3D 위치 맵을 연결함으로써 기하학적 컨볼루션 레이어(GCL)를 도입하여 3D 공간 기하를 명시적으로 인코딩한다.
확장된, 가속화된(DA) CSPN++ 모듈을 구현하여 융합된 깊이 맵을 정밀 조정함으로써 전파 시간을 줄이고 정확도를 유지한다.
전체 모델은 Cityscapes나 합성 데이터와 같은 추가 데이터셋을 요구하지 않고, 끝내기부터 훈련된다.

실험 결과

연구 질문

RQ1색상 및 깊이 지배적 특징을 별도로 강조하는 이중 브랜치 네트워크가 후기 또는 초기 융합 기반 방법보다 더 나은 깊이 보완 성능을 달성할 수 있는가?
RQ2컨볼루션 레이어에 3D 기하 위치 정보를 명시적으로 인코딩하면, 특히 물체 경계 근처에서 깊이 예측 정확도가 향상되는가?
RQ3수정된, 가속화된 CSPN++의 변형이 유의미하게 감소된 추론 시간으로 효과적인 정밀 조정을 가능하게 하는가?
RQ4제안된 방법이 KITTI 깊이 보완 벤치마크에서 정확도와 추론 속도 양면에서 최신 기술 수준의 성능을 달성하는가?
RQ5외부 사전 훈련 데이터셋에 의존하지 않고도 높은 성능을 달성할 수 있는가?

주요 결과

PENet는 KITTI 깊이 보완 테스트 세트에서 730.08의 최저 RMSE를 기록하여 비교 표에 나열된 모든 다른 발표된 방법보다 뚜렷이 뛰어난 성능을 보였다.
기하학적 컨볼루션 레이어(GCL)는 표준 컨볼루션에 비해 백본의 RMSE를 크게 향상시켰으며, 좌표 인코딩(CCL) 및 깊이 전용 인코딩(DCL) 변형보다도 뛰어났다.
제출 당시 KITTI 온라인 랭킹에서 1위를 기록했으며, 단일 2080Ti GPU에서 런타임이 0.032초로, 상위 10개 방법 중 8개보다 추론 속도에서 뛰어났다.
정밀 조정 모듈 없이도 기하 인코더 백본(ENet)은 RMSE 741.30을 기록하여, 공간 전파 기법을 사용한 10개의 상위 방법 중 9개를 초월했다.
제안된 DA-CSPN++ 모듈은 전파 시간을 0.015초로 줄여 원본 CSPN++ 대비 92% 감소하고 NLSPN 대비 95% 감소시켰으며, 높은 정확도를 유지했다.
Cityscapes나 합성 데이터와 같은 대규모 데이터셋에 대한 사전 훈련이 필요 없이도 모델이 끝내기부터 훈련 가능하며, 높은 성능을 달성할 수 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.