QUICK REVIEW

[논문 리뷰] VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking

Yukang Chen, Jianhui Liu|arXiv (Cornell University)|2023. 03. 20.

Advanced Neural Network Applications인용 수 17

한 줄 요약

VoxelNeXt는 스파스 보xel 특징에서 직접 3D 객체를 예측하는 완전한 스파스 보xel 기반 네트워크를 제안하며, 앵커, 밀집 헤드, NMS를 제거하면서 3D 탐지와 트래킹에서 nuScenes, Waymo, Argoverse2에 대해 속도-정확도 성능을 제공합니다.

ABSTRACT

3D object detectors usually rely on hand-crafted proxies, e.g., anchors or centers, and translate well-studied 2D frameworks to 3D. Thus, sparse voxel features need to be densified and processed by dense prediction heads, which inevitably costs extra computation. In this paper, we instead propose VoxelNext for fully sparse 3D object detection. Our core insight is to predict objects directly based on sparse voxel features, without relying on hand-crafted proxies. Our strong sparse convolutional network VoxelNeXt detects and tracks 3D objects through voxel features entirely. It is an elegant and efficient framework, with no need for sparse-to-dense conversion or NMS post-processing. Our method achieves a better speed-accuracy trade-off than other mainframe detectors on the nuScenes dataset. For the first time, we show that a fully sparse voxel-based representation works decently for LIDAR 3D object detection and tracking. Extensive experiments on nuScenes, Waymo, and Argoverse2 benchmarks validate the effectiveness of our approach. Without bells and whistles, our model outperforms all existing LIDAR methods on the nuScenes tracking test benchmark.

연구 동기 및 목표

앵커, 중심점, 밀집 예측 헤드를 피하는 완전한 희소(proxy-free) 3D 탐정 패러다임의 동기 부여.
희소 CNN 백본과 희소 보xel 특징에서 직접 3D 박스를 출력할 수 있는 보xel 기반 예측 헤드를 개발.
NMS나 밀집 제안을 사용하지 않고도 보xel 연결에 기반한 트래킹을 가능하게 하여 3D 트래킹을 구현.
기존 LIDAR 방법과 비교하여 nuScenes, Waymo, 및 Argoverse2 벤치마크에서 효율성과 정확도 향상을 입증합니다.

제안 방법

수용 필드를 확장하기 위해 무거운 아키텍처 변경 없이 추가적인 다운샘플링 계층을 도입합니다.
예측을 위해 3D 보xel 특징을 압축된 2D 희소 특징으로 투영하는 완전한 희소 높이 압축을 적용합니다.
예측 선택을 수행하고 NMS 후처리를 제거하기 위해 보xel 선택과 희소 맥스 풀링을 구현합니다.
헤드에서 완전 연결 계층 또는 3x3 희소 컨볼루션 중 하나를 사용하여 선택된 보xel 특징에서 직접 바운딩 박스를 예측합니다.
프레임 간 강건한 데이터 연합을 위한 보xel 연결을 통해 3D 트래킹으로 확장합니다.
2D 백본 대 3D 백본 비교 및 공간 절단이 추론 효율성에 미치는 영향을 분석합니다.

실험 결과

연구 질문

RQ1완전한 희소 보xel 기반 네트워크가 프록시나 밀집 예측 헤드 없이 보xel 특징에서 직접 3D 객체를 예측할 수 있는가?
RQ2가벼운 다운샘플링 계층과 희소 높이 압축을 추가해 수용 필드와 정확도 향상을 충분히 얻을 수 있는가?
RQ3희소 맥스 풀링을 예측 선택에 사용한다면 완전한 희소 프레임워크에서 NMS가 필요 없는가?
RQ4중심 기반 트래킹을 넘어 보xel 연관성이 3D 트래킹을 향상시킬 수 있는가?
RQ5VoxelNeXt는 state-of-the-art LIDAR 기반 탐지기 및 트래커와 비교하여 nuScenes, Waymo, Argoverse2에서 어떤 성능을 보이는가?

주요 결과

VoxelNeXt는 nuScenes, Waymo, Argoverse2 벤치마크에서 높은 효율로 탐지 및 트래킹 성능을 선도합니다.
nuScenes 트래킹 테스트에서 VoxelNeXt는 bells and whistles 없이 모든 LIDAR-전용 항목 중 1위를 차지합니다.
완전한 희소 보xel 기반 표현은 밀집 헤드나 NMS 후처리 없이도 3D 탐지와 트래킹에 효과적일 수 있습니다.
센터포인트(CenterPoint)와 비교한 주요 ablation에서 mAP 및 NDS가 높고 FLOPs가 낮아 더 나은 속도-정확도 트레이드를 보여줍니다.
보xel 연관성은 트래킹에 유리하며 센터 전용 트래킹 대비 AMOTA를 약 1.1pp 향상시킵니다.
추가 다운샘플링 계층, 희소 높이 압축(3D 백본과 함께하는 2D 헤드), NMS보다 희소 맥스 풀링의 가치가 ablation에서 확인됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.