[论文解读] VoxelNeXt: Fully Sparse VoxelNet for 3D Object Detection and Tracking
VoxelNeXt 提出一个完全稀疏体素网络,直接从稀疏体素特征预测3D对象,省略锚框、密集头和NMS,在 nuScenes、Waymo、Argoverse2 的3D检测与跟踪中实现速度-精度的强劲表现。
3D object detectors usually rely on hand-crafted proxies, e.g., anchors or centers, and translate well-studied 2D frameworks to 3D. Thus, sparse voxel features need to be densified and processed by dense prediction heads, which inevitably costs extra computation. In this paper, we instead propose VoxelNext for fully sparse 3D object detection. Our core insight is to predict objects directly based on sparse voxel features, without relying on hand-crafted proxies. Our strong sparse convolutional network VoxelNeXt detects and tracks 3D objects through voxel features entirely. It is an elegant and efficient framework, with no need for sparse-to-dense conversion or NMS post-processing. Our method achieves a better speed-accuracy trade-off than other mainframe detectors on the nuScenes dataset. For the first time, we show that a fully sparse voxel-based representation works decently for LIDAR 3D object detection and tracking. Extensive experiments on nuScenes, Waymo, and Argoverse2 benchmarks validate the effectiveness of our approach. Without bells and whistles, our model outperforms all existing LIDAR methods on the nuScenes tracking test benchmark.
研究动机与目标
- 激发一种完全稀疏、无代理的3D检测范式,避免锚框、中心点和密集预测头。
- 开发一个稀疏CNN骨干网络和基于体素的预测头,可直接从稀疏体素特征输出3D框。
- 通过整合体素关联和离线跟踪,在不使用NMS或密集候选的情况下实现3D跟踪。
- 在 nuScenes、Waymo 和 Argoverse2 基准上展示相对于现有激光雷达方法的效率与精度提升。
提出的方法
- 引入额外的下采样层,在不进行大幅架构改动的情况下扩展感受野。
- 应用全稀疏高度压缩将3D体素特征投影为用于预测的压缩2D稀疏特征。
- 实现体素选择和稀疏最大池化以进行预测并消除NMS后处理。
- 直接从选定的体素特征预测边界框,在头部使用全连接层或3x3稀疏卷积。
- 通过体素关联扩展到3D跟踪,实现跨帧的鲁棒数据关联。
- 可选地比较2D与3D骨干网络,并分析空间裁剪对推理效率的影响。
实验结果
研究问题
- RQ1一个完全稀疏的基于体素的网络是否可以直接从体素特征预测3D对象,而无需手工代理或密集预测头?
- RQ2添加轻量级下采样层和稀疏高度压缩是否在不牺牲效率的前提下提供足够的感受野和准确性提升?
- RQ3如果使用稀疏最大池化进行预测选择,在完全稀疏框架中是否不需要NMS?
- RQ4在超越中心点跟踪方法时,体素关联是否能够提升3D跟踪?
- RQ5VoxelNeXt 在 nuScenes、Waymo、Argoverse2 上相对于最先进的基于激光雷达的检测器和跟踪器表现如何?
主要发现
| 方法 | mAP | NDS | 延迟 | 小汽车 | 卡车 | 巴士 | 拖车 | C.V. | 行人 | 摩托车 | 自行车 | T.C. | 杆 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| PillarPillars | 30.5 | 45.3 | 31 ms | 68.4 | 23.0 | 28.2 | 23.4 | 4.1 | 59.7 | 27.4 | 1.1 | 30.8 | 38.9 |
| 3DSSD | 42.6 | 56.4 | - | 81.2 | 47.2 | 61.4 | 30.5 | 12.6 | 70.2 | 36.0 | 8.6 | 31.1 | 47.9 |
| CBGS | 52.8 | 63.3 | 80 ms | 81.1 | 48.5 | 54.9 | 42.9 | 10.5 | 80.1 | 51.5 | 22.3 | 70.9 | 65.7 |
| CenterPoint | 58.0 | 65.5 | 96 ms | 84.6 | 51.0 | 60.2 | 53.2 | 17.5 | 83.4 | 53.7 | 28.7 | 76.7 | 70.9 |
| CVCNET | 58.2 | 66.6 | 122 ms | 82.6 | 49.5 | 59.4 | 51.1 | 16.2 | 83.0 | 61.8 | 38.8 | 69.7 | 69.7 |
| HotSpotNet | 59.3 | 66.0 | - | 83.1 | 50.9 | 56.4 | 53.3 | 23.0 | 81.3 | 63.5 | 36.6 | 73.0 | 71.6 |
| VISTA | 63.0 | 69.8 | 94 ms | 84.4 | 55.1 | 63.7 | 54.2 | 25.1 | 82.8 | 70.0 | 45.4 | 78.5 | 71.4 |
| UVTR-L | 63.9 | 69.7 | 132 ms | 86.3 | 52.2 | 62.8 | 59.7 | 33.7 | 84.5 | 68.8 | 41.1 | 74.7 | 74.9 |
| PillarNet-18 | 65.0 | 70.8 | 78 ms | 87.4 | 56.7 | 60.9 | 61.8 | 30.4 | 87.2 | 67.4 | 40.3 | 82.1 | 76.0 |
| SWFormer | - | - | - | - | - | - | - | - | - | - | - | - | - |
| FSD spconv | 71.9 | 77.8 | - | 81.9 | 76.4 | 73.2 | 76.5 | 75.2 | 72.5 | 76.5 | 73.8 | 72.5 | - |
| VoxelNeXt-2D | 70.9 | 77.9 | 61 ms | 84.8 | 52.7 | 62.3 | 56.2 | 29.5 | 84.5 | 72.5 | 45.7 | 78.8 | 73.7 |
| VoxelNeXt | 66.2 | 71.4 | - | 85.3 | 55.7 | 66.2 | 57.2 | 29.8 | 86.5 | 75.2 | 48.8 | 80.7 | 76.1 |
| VoxelNeXt† | 66.2 | 71.4 | - | 85.3 | 55.7 | 66.2 | 57.2 | 29.8 | 86.5 | 75.2 | 48.8 | 80.7 | 76.1 |
- VoxelNeXt 在 nuScenes、Waymo 和 Argoverse2 基准测试中实现了领先的检测和跟踪性能,同时具有高效率。
- 在 nuScenes 跟踪测试中,VoxelNeXt 在所有只使用激光雷达的条目中名列第一。
- 完全稀疏的基于体素的表示在没有密集头和NMS后处理的情况下也能有效进行3D检测与跟踪。
- 与CenterPoint相比,VoxelNeXt在关键消融中的mAP和NDS更高、FLOPs更低,呈现更有利的速度-精度权衡。
- VoxelNeXt 受益于体素关联用于跟踪,相较于仅中心跟踪,AMOTA 提升约1.1个百分点。
- 消融研究验证了额外下采样层、稀疏高度压缩(2D头部配合3D骨干)以及稀疏最大池化优于NMS的价值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。