[论文解读] Searching Efficient 3D Architectures with Sparse Point-Voxel Convolution
引入 Sparse Point-Voxel Convolution (SPVConv) 以在大规模三维场景中保留细节,以及 3D-NAS 来自动搜索高效的三维架构;在 SemanticKITTI 和 KITTI 上以更低的计算量和时延实现了最先进的准确度。
Self-driving cars need to understand 3D scenes efficiently and accurately in order to drive safely. Given the limited hardware resources, existing 3D perception models are not able to recognize small instances (e.g., pedestrians, cyclists) very well due to the low-resolution voxelization and aggressive downsampling. To this end, we propose Sparse Point-Voxel Convolution (SPVConv), a lightweight 3D module that equips the vanilla Sparse Convolution with the high-resolution point-based branch. With negligible overhead, this point-based branch is able to preserve the fine details even from large outdoor scenes. To explore the spectrum of efficient 3D models, we first define a flexible architecture design space based on SPVConv, and we then present 3D Neural Architecture Search (3D-NAS) to search the optimal network architecture over this diverse design space efficiently and effectively. Experimental results validate that the resulting SPVNAS model is fast and accurate: it outperforms the state-of-the-art MinkowskiNet by 3.3%, ranking 1st on the competitive SemanticKITTI leaderboard. It also achieves 8x computation reduction and 3x measured speedup over MinkowskiNet with higher accuracy. Finally, we transfer our method to 3D object detection, and it achieves consistent improvements over the one-stage detection baseline on KITTI.
研究动机与目标
- 在自动驾驶中在严格的硬件约束下激发对准确三维感知的需求。
- 提出 SPVConv 以在不产生 prohibitive 计算量的情况下保留细节。
- 使用 3D-NAS 在资源约束下自动化三维架构设计。
- 在大型户外场景和三维目标检测任务上展示改进。
提出的方法
- 提出 Sparse Point-Voxel Convolution (SPVConv),它将高分辨率点基分支与稀疏体素分支结合起来。
- 使用基于 GPU 加速的稀疏体素化/去体素化管线,并使用哈希表实现 O(m+n) 的坐标索引。
- 通过跨分支插值后的相加将点基 MLP 特征与稀疏体素特征融合。
- 构建 SPVCNN 作为骨干,并应用 3D-NAS 在包括细粒度通道选择与弹性深度的密集设计空间内搜索高效架构。
- 用权重共享的单一超网络并进行渐进深度收缩来高效探索大量候选架构。
- 进行进化架构搜索以在基于 MACs 的资源约束下选择模型,利用数据集统计量来估计稀疏层的 MACs。
实验结果
研究问题
- RQ1在有限计算下,SPVConv 如何提升大规模三维场景中对小物体的识别?
- RQ2自动化的架构搜索(3D-NAS)能否在固定资源预算下发现优于人工设计的高效三维模型?
- RQ3在 3D 语义分割和目标检测任务中,模型大小、计算量、延迟与精度之间的权衡是什么?
- RQ4高分辨率点分支结合稀疏体素分支是否能从分割泛化到 KITTI 的三维检测?
主要发现
| 模型 | 参数量 (M) | MACs (G) | 延迟 (ms) | mIoU |
|---|---|---|---|---|
| MinkowskiNet [9] | 21.7 | 114.0 | 294 | 63.1 |
| SPVNAS (Ours) | 2.6 | 15.0 | 110 | 63.7 |
- SPVNAS 在 SemanticKITTI 的 mIoU 比 MinkowskiNet 高 3.3%,且模型规模和计算量更小。
- SPVNAS 相较于 MinkowskiNet 在计算量缩减 8x、实际速度提升 3x 的同时仍保持更高的精度。
- SPVNAS 在 KITTI 上的检测性能有所提升,特别是对自行车等对象相比强基线一阶段方法。
- SPVConv 模块在小物体上提供了显著增益,通过对 SemanticKITTI 的逐类改进得到证明。
- 3D-NAS 找到高度高效的架构,在通道分布和深度上取得平衡,显著降低延迟而不牺牲精度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。