QUICK REVIEW

[논문 리뷰] Virtual Sparse Convolution for Multimodal 3D Object Detection

Wu Hai, Chenglu Wen|arXiv (Cornell University)|2023. 03. 04.

Advanced Neural Network Applications인용 수 11

한 줄 요약

논문은 Stochastic Voxel Discard (StVD)와 Noise-Resistant Submanifold Convolution (NRConv)을 사용하는 가상 포인트 기반 다중모달 3D 객체 검출기 VirConvNet를 제안하여 처리 속도를 높이고 깊이 보정 노이즈를 억제하며 KITTI와 nuScenes에서 빠르고 높은 정밀도 결과를 도출한다.

ABSTRACT

Recently, virtual/pseudo-point-based 3D object detection that seamlessly fuses RGB images and LiDAR data by depth completion has gained great attention. However, virtual points generated from an image are very dense, introducing a huge amount of redundant computation during detection. Meanwhile, noises brought by inaccurate depth completion significantly degrade detection precision. This paper proposes a fast yet effective backbone, termed VirConvNet, based on a new operator VirConv (Virtual Sparse Convolution), for virtual-point-based 3D object detection. VirConv consists of two key designs: (1) StVD (Stochastic Voxel Discard) and (2) NRConv (Noise-Resistant Submanifold Convolution). StVD alleviates the computation problem by discarding large amounts of nearby redundant voxels. NRConv tackles the noise problem by encoding voxel features in both 2D image and 3D LiDAR space. By integrating VirConv, we first develop an efficient pipeline VirConv-L based on an early fusion design. Then, we build a high-precision pipeline VirConv-T based on a transformed refinement scheme. Finally, we develop a semi-supervised pipeline VirConv-S based on a pseudo-label framework. On the KITTI car 3D detection test leaderboard, our VirConv-L achieves 85% AP with a fast running speed of 56ms. Our VirConv-T and VirConv-S attains a high-precision of 86.3% and 87.2% AP, and currently rank 2nd and 1st, respectively. The code is available at https://github.com/hailanyi/VirConv.

연구 동기 및 목표

RGB 이미지와 LiDAR 데이터에서 밀집 가상 포인트로 다중모달 3D 검출을 동기화하려는 motivation.
근접 영역의 불필요한 보셀을 버리면서 원거리 기하를 보존하여 계산 비효율성을 해결하려는 목표.
깊이 보정 노이즈를 완화하기 위해 3D 공간과 2D 이미지 공간 모두에서 보셀 특징을 인코딩.
세 가지 파이프라인(VirConv-L, VirConv-T, VirConv-S)을 제시하여 효율적이고 고정밀하며 반감지도 탐지를 달성.
KITTI 및 nuScenes 벤치마크에서 최첨단 성능을 보여주기 위함.

제안 방법

StVD와 NRConv을 결합한 VirConv 연산자를 도입.
Stochastic Voxel Discard (StVD): 입력 빈 기반 샘플링으로 근접 보셀의 약 90%를 제거하고 학습 중 계층별 확률적 버리기를 적용.
NRConv: 3D 공간과 2D 이미지 공간에서 기하 특징을 인코딩하여 깊이 보정 노이즈를 억제.
세 가지 검출기 구성—VirConv-L (빠르고 초기 융합), VirConv-T (변환된 정교화로 고정밀), VirConv-S (가짜 레이블로 반감지도 학습).
KITTI 및 nuScenes에서 학습 및 평가하며, 어블레이션 및 LiDAR 전용 및 다른 다중모달 방법과의 비교를 수행.

실험 결과

연구 질문

RQ1VirConv가 가상 포인트 기반 다중모달 3D 검출에서 정확도를 희생하지 않으면서 효율성을 개선하는가?
RQ2StVD와 NRConv가 각각 또는 공동으로 검출 성능 및 깊이 보정 노이즈에 대한 견고성에 어떤 영향을 미치는가?
RQ3제안된 VirConv 기반 파이프라인(L, T, S)이 KITTI와 nuScenes에서 최첨단 방법과 비교하여 경쟁력 있거나 우수한 성능을 보이는가?
RQ4반감지도 VirConv-S가 레이블 없는 데이터를 활용하여 성능을 더 높일 수 있는가?

주요 결과

VirConv-L은 KITTI 자동차 테스트에서 85% AP를 달성하고 런타임 56 ms로 빠른 다중모달 탐지를 보인다.
VirConv-T는 86.3% AP, VirConv-S는 87.2% AP를 달성하여 CVPR 마감 시점에서 2위 및 1위로 리더보드에 랭크되었다.
KITTI 검증에서 VirConv-L, VirConv-T, VirConv-S는 Voxel-RCNN 베이스라인 대비 Car 3D AP (R40)를 각각 3.42%, 5.0%, 5.68% 올렸다.
NRConv(3D+2D 피처 인코딩)는 VirConv-T 어블레이션에서 Car 3D AP를 88.32%에서 90.29%로 크게 향상시켰다.
StVD는 근접 보셀의 불필요한 제거(약 90% 입력 축소)로 추론 속도를 높이고 더 희박한 샘플을 시뮬레이션하여 성능 안정성을 확보한다.
nuScenes에서 VirConv는 CenterPoint+VP 및 TransFusion-L+VP를 개선하고, VirConv가 TransFusion-L+VP와 함께 사용될 때 TransFusion보다 NDS에서 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.