QUICK REVIEW

[論文レビュー] VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking

Yukang Chen, Jianhui Liu|arXiv (Cornell University)|Mar 20, 2023

Advanced Neural Network Applications被引用数 17

ひとこと要約

VoxelNeXt は、アンカー、密なヘッド、NMS を排除し、疎 voxel 特徴から直接 3D オブジェクトを予測する完全疎なボクセルベースのネットワークを提案し、nuScenes、Waymo、Argoverse2 における 3D 検出と追跡で高速性と精度を両立する。

ABSTRACT

3D object detectors usually rely on hand-crafted proxies, e.g., anchors or centers, and translate well-studied 2D frameworks to 3D. Thus, sparse voxel features need to be densified and processed by dense prediction heads, which inevitably costs extra computation. In this paper, we instead propose VoxelNext for fully sparse 3D object detection. Our core insight is to predict objects directly based on sparse voxel features, without relying on hand-crafted proxies. Our strong sparse convolutional network VoxelNeXt detects and tracks 3D objects through voxel features entirely. It is an elegant and efficient framework, with no need for sparse-to-dense conversion or NMS post-processing. Our method achieves a better speed-accuracy trade-off than other mainframe detectors on the nuScenes dataset. For the first time, we show that a fully sparse voxel-based representation works decently for LIDAR 3D object detection and tracking. Extensive experiments on nuScenes, Waymo, and Argoverse2 benchmarks validate the effectiveness of our approach. Without bells and whistles, our model outperforms all existing LIDAR methods on the nuScenes tracking test benchmark.

研究の動機と目的

アンカー、中心、密な予測ヘッドを避ける、完全疎かつプロキシフリーな 3D 検出パラダイムを動機づける。
疎な CNN バックボーンとボクセルベースの予測ヘッドを開発し、疎なボクセル特徴量から直接 3D ボックスを出力できるようにする。
NMS や密な提案なしでボクセル連携とオフライン追跡を統合し、3D 追跡を可能にする。
既存の LIDAR 手法と比べて nuScenes、Waymo、Argoverse2 ベンチマークで効率と精度の向上を示す。

提案手法

追加のダウンサンプリング層を導入して、重いアーキテクチャ変更なしに受容野を拡張する。
完全疎の高さ圧縮を適用して、予測のために 3D ボクセル特徴を圧縮された 2D 疎特徴に投影する。
ボクセル選択と疎最大プーリングを実装して予測を実行し、NMS 後処理を排除する。
ヘッドで全結合層または 3x3 疎畳み込みのいずれかを用いて、選択されたボクセル特徴から直接境界ボックスを予測する。
フレーム間での堅牢なデータ結合のためのボクセル結合によって 3D 追跡を拡張する。
推論効率に対する影響を分析するため、2D バックボーンと 3D バックボーンの比較や空間プリニングの影響を任意に評価する。

実験結果

リサーチクエスチョン

RQ1完全に疎なボクセルベースのネットワークが、ハンドメイドのプロキシや密な予測ヘッドを使わずにボクセル特徴から直接 3D オブジェクトを予測できるか？
RQ2軽量なダウンサンプリング層と疎高度圧縮を追加することで、効率を損なうことなく受容野と精度の向上が十分か？
RQ3疎最大プーリングを予測選択に用いる場合、完全に疎なフレームワークで NMS は不要か？
RQ4ボクセル結合は、中心ベースの追跡アプローチを超えた場合に 3D 追跡を改善できるか？
RQ5VoxelNeXt は最新の LIDAR ベース検出子とトラッカーと比べて nuScenes、Waymo、Argoverse2 でどのように性能を発揮するか？

主な発見

手法	mAP	NDS	レイテンシ	車	トラック	バス	トレーラー	C.V.	歩行者	オートバイ	自転車	T.C.	バー
PillarPillars	30.5	45.3	31 ms	68.4	23.0	28.2	23.4	4.1	59.7	27.4	1.1	30.8	38.9
3DSSD	42.6	56.4	-	81.2	47.2	61.4	30.5	12.6	70.2	36.0	8.6	31.1	47.9
CBGS	52.8	63.3	80 ms	81.1	48.5	54.9	42.9	10.5	80.1	51.5	22.3	70.9	65.7
CenterPoint	58.0	65.5	96 ms	84.6	51.0	60.2	53.2	17.5	83.4	53.7	28.7	76.7	70.9
CVCNET	58.2	66.6	122 ms	82.6	49.5	59.4	51.1	16.2	83.0	61.8	38.8	69.7	69.7
HotSpotNet	59.3	66.0	-	83.1	50.9	56.4	53.3	23.0	81.3	63.5	36.6	73.0	71.6
VISTA	63.0	69.8	94 ms	84.4	55.1	63.7	54.2	25.1	82.8	70.0	45.4	78.5	71.4
UVTR-L	63.9	69.7	132 ms	86.3	52.2	62.8	59.7	33.7	84.5	68.8	41.1	74.7	74.9
PillarNet-18	65.0	70.8	78 ms	87.4	56.7	60.9	61.8	30.4	87.2	67.4	40.3	82.1	76.0
SWFormer	-	-	-	-	-	-	-	-	-	-	-	-	-
FSD spconv	71.9	77.8	-	81.9	76.4	73.2	76.5	75.2	72.5	76.5	73.8	72.5	-
VoxelNeXt-2D	70.9	77.9	61 ms	84.8	52.7	62.3	56.2	29.5	84.5	72.5	45.7	78.8	73.7
VoxelNeXt	66.2	71.4	-	85.3	55.7	66.2	57.2	29.8	86.5	75.2	48.8	80.7	76.1
VoxelNeXt†	66.2	71.4	-	85.3	55.7	66.2	57.2	29.8	86.5	75.2	48.8	80.7	76.1

VoxelNeXt は nuScenes、Waymo、Argoverse2 ベンチマークで高い効率と共に優れた検出・追跡性能を達成する。
nuScenes の追跡テストでは、VoxelNeXt は鐘の音のない全 LIDAR 限定エントリの中で 1 位にランク付けされた。
密なヘッドや NMS 後処理なしでも、完全疎のボクセルベース表現は 3D 検出と追跡に有効である。
中心点のみの追跡よりも、主要な ablationで mAP および NDS が高く、FLOPs が低い点で CenterPoint と比較して好ましい速度-精度のトレードオフを示す。
VoxelNeXt は追跡のためのボクセル結合を活用して、中心だけの追跡より AMOTA を約 1.1 ポイント改善した。
追加のダウンサンプリング層、疎高度圧縮（3D バックボーンを備えた 2D ヘッド）、および NMS よりも疎最大プーリングの価値を検証するアブレーションを実施した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。