QUICK REVIEW

[논문 리뷰] HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection

Maosheng Ye, Shuangjie Xu|arXiv (Cornell University)|2020. 02. 29.

Advanced Neural Network Applications참고 문헌 33인용 수 24

한 줄 요약

HVNet는 하이브리드 볼륨 특징 인코딩을 사용하여 특징 추출 및 특징 맵 투영 스케일을 분리함으로써 높은 정확도와 실시간 추론을 가능하게 하는 일단계 3D 객체 검출 네트워크를 제안한다. 다중 스케일 볼륨 특징을 점별로 융합하고, 주목성 특징 인코더와 특징 융합 피라미드를 통해 동적 가상 이미지 맵으로 투영함으로써, HVNet는 KITTI에서 31Hz에서 최신 기준 mAP를 달성하며 기존의 일단계 및 이단계 라이다 방법들을 능가한다.

ABSTRACT

We present Hybrid Voxel Network (HVNet), a novel one-stage unified network for point cloud based 3D object detection for autonomous driving. Recent studies show that 2D voxelization with per voxel PointNet style feature extractor leads to accurate and efficient detector for large 3D scenes. Since the size of the feature map determines the computation and memory cost, the size of the voxel becomes a parameter that is hard to balance. A smaller voxel size gives a better performance, especially for small objects, but a longer inference time. A larger voxel can cover the same area with a smaller feature map, but fails to capture intricate features and accurate location for smaller objects. We present a Hybrid Voxel network that solves this problem by fusing voxel feature encoder (VFE) of different scales at point-wise level and project into multiple pseudo-image feature maps. We further propose an attentive voxel feature encoding that outperforms plain VFE and a feature fusion pyramid network to aggregate multi-scale information at feature map level. Experiments on the KITTI benchmark show that a single HVNet achieves the best mAP among all existing methods with a real time inference speed of 31Hz.

연구 동기 및 목표

라이다 기반 3D 객체 검출에서 추론 속도와 정확도 사이의 상충 관계를 해결하기 위해, 특히 소형 객체에 대해.
볼륨 기반 네트워크에서 고정된 볼륨 크기의 한계를 극복하기 위해, 작은 볼륨은 계산을 증가시키고 큰 볼륨은 특징 세부 정보를 감소시킨다.
특징 추출 스케일과 특징 맵 투영 스케일을 분리함으로써 다중 스케일 특징 학습을 효율적으로 가능하게 하기 위해.
학습 가능한 주목성 메커니즘을 통해 배경을 억압하고 객체 영역을 강조함으로써 주목성 볼륨 특징 인코더( AVFE)를 통해 특징 표현을 향상시키기 위해.
특히 Cyclist 및 Pedestrian와 같은 도전적인 클래스에서 mAP를 손상시키지 않고 실시간 성능(≥31 Hz)을 달성하기 위해.

제안 방법

HVNet는 다중 스케일 볼륨화를 사용하여 각 점을 다양한 스케일(예: 0.1m, 0.2m, 0.4m)의 특징 추출 볼륨에 할당함으로써 세밀한 국소 특징 학습을 가능하게 한다.
하이브리드 볼륨 특징 인코더는 각 점에 대해 스케일별 특징을 계산하고 점별로 연결함으로써 스케일 간 공간 세부 정보를 유지한다.
주목성 볼륨 특징 인코더(AVFE)는 학습 가능한 주목성 메커니즘을 통해 배경을 억압하고 객체 영역을 강조함으로써 분류 성능 향상 특징을 강화한다.
네트워크는 별도의 투영 볼륨 격자를 사용하여 다중 스케일 점별 특징을 다중 가상 이미지 특징 맵으로 투영함으로써 특징 추출 스케일과 투영 스케일을 분리한다.
특징 융합 피라미드 네트워크(FFPN)는 가상 이미지 수준에서 스케일 간 특징을 융합하여 검출을 위한 맥락 표현을 향상시킨다.
백본 네트워크는 융합된 특징 맵을 처리하고, 포지티브 로스와 NMS를 사용하는 다중 클래스 헤드가 최종 3D 바운딩 박스를 생성한다.

실험 결과

연구 질문

RQ1특징 추출 스케일과 투영 스케일을 분리함으로써 통합된 일단계 3D 검출기로 고정밀도와 실시간 추론을 동시에 달성할 수 있는가?
RQ2점별 수준에서의 다중 스케일 볼륨 특징 융합은 단일 스케일 볼륨화에 비해 소형 객체 검출 성능을 어떻게 향상시키는가?
RQ3주목성 볼륨 특징 인코더는 표준 PointNet 스타일 VFE에 비해 특징 표현을 얼마나 향상시키는가?
RQ4mAP를 최대화하면서도 실시간 속도를 유지하기 위해 특징 추출 스케일 수와 투영 스케일 수 사이의 최적 균형은 무엇인가?
RQ5KITTI 벤치마크에서 제안된 HVNet은 최신 기준 일단계, 이단계, 다중 센서 방법들과 비교해 mAP와 추론 속도 측면에서 어떻게 성능을 내는가?

주요 결과

HVNet는 KITTI 벤치마크에서 모든 일단계 라이다 기반 3D 객체 검출기 중 최고의 mAP를 기록했으며, PointPillars, SECOND, PointRCNN와 같은 방법들을 능가한다.
모델은 2080Ti GPU에서 31Hz로 실행되어 360° 자율 주행 인식에 요구되는 20Hz 실시간 기준을 초월한다.
VFE 레이어에 주목성 기능을 추가함으로써 BEV Moderate 세트에서 mAP가 2.06 포인트 향상되었으며, 이는 특징 분류 성능 향상의 효과를 입증한다.
세 개의 특징 추출 스케일(S_T=3)과 세 개의 투영 스케일(S_R=3)을 사용할 경우 최고의 성능를 기록했으며, 단일 스케일 기준 대비 2.17 mAP 향상이 이루어졌다.
HSV 및 인덱스 기반 구현을 사용한 하이브리드 볼륨 특징 추출기로 인해 표준 VFE 대비 추론 시간이 2ms 감소하여 정확도 손실 없이 효율성이 향상되었다.
정성적 결과는 가려진 환경이나 고밀도 장면에서도 강력한 검출 성능을 보이며, 모든 클래스에서 고품질의 3D 바운딩 박스를 생성함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.