[论文解读] Virtual Sparse Convolution for Multimodal 3D Object Detection
本文提出 VirConvNet,一种基于虚拟点的多模态 3D 目标检测器,使用 Stochastic Voxel Discard (StVD) 和 Noise-Resistant Submanifold Convolution (NRConv) 以加速处理并抑制深度补全噪声,在 KITTI 和 nuScenes 上实现快速且高精度的结果。
Recently, virtual/pseudo-point-based 3D object detection that seamlessly fuses RGB images and LiDAR data by depth completion has gained great attention. However, virtual points generated from an image are very dense, introducing a huge amount of redundant computation during detection. Meanwhile, noises brought by inaccurate depth completion significantly degrade detection precision. This paper proposes a fast yet effective backbone, termed VirConvNet, based on a new operator VirConv (Virtual Sparse Convolution), for virtual-point-based 3D object detection. VirConv consists of two key designs: (1) StVD (Stochastic Voxel Discard) and (2) NRConv (Noise-Resistant Submanifold Convolution). StVD alleviates the computation problem by discarding large amounts of nearby redundant voxels. NRConv tackles the noise problem by encoding voxel features in both 2D image and 3D LiDAR space. By integrating VirConv, we first develop an efficient pipeline VirConv-L based on an early fusion design. Then, we build a high-precision pipeline VirConv-T based on a transformed refinement scheme. Finally, we develop a semi-supervised pipeline VirConv-S based on a pseudo-label framework. On the KITTI car 3D detection test leaderboard, our VirConv-L achieves 85% AP with a fast running speed of 56ms. Our VirConv-T and VirConv-S attains a high-precision of 86.3% and 87.2% AP, and currently rank 2nd and 1st, respectively. The code is available at https://github.com/hailanyi/VirConv.
研究动机与目标
- 通过来自 RGB 图像和 LiDAR 数据的密集虚拟点实现多模态 3D 检测。
- 通过丢弃近场体素来提高计算效率,同时保留远场几何信息。
- 通过在 3D 空间和 2D 图像空间对体素特征进行编码来缓解深度补全噪声。
- 提出三种流水线(VirConv-L、VirConv-T、VirConv-S)以实现高效、高精度和半监督检测。
- 在 KITTI 和 nuScenes 基准上展示最先进的性能。
提出的方法
- 引入 VirConv 操作符,结合 StVD 和 NRConv。
- Stochastic Voxel Discard (StVD):基于输入分箱的采样,以丢弃约 90% 的附近体素;在训练阶段进行逐层的随机丢弃。
- Noise-Resistant Submanifold Convolution (NRConv):在 3D 空间和 2D 图像空间对几何特征进行编码,以抑制深度补全噪声。
- 构建三种检测器——VirConv-L(快速、早期融合)、VirConv-T(具有变换细化的高精度)、VirConv-S(带伪标签的半监督)。
- 在 KITTI 和 nuScenes 上进行训练和评估,并进行消融研究以及与 LiDAR-only 和其他多模态方法的比较。
实验结果
研究问题
- RQ1VirConv 是否在不牺牲精度的前提下提升基于虚拟点的多模态 3D 检测的效率?
- RQ2StVD 与 NRConv 单独及联合如何影响检测性能及对深度补全噪声的鲁棒性?
- RQ3所提出的基于 VirConv 的流水线(L、T、S)在 KITTI 和 nuScenes 上是否达到与最先进方法相媲美或优越的结果?
- RQ4半监督的 VirConv-S 能否利用未标注数据进一步提升性能?
主要发现
- VirConv-L 在 KITTI Car 测试上取得 85% AP,运行时 56 ms,展示快速的多模态检测。
- VirConv-T 在 KITTI 上达到 86.3% 的 AP,VirConv-S 达到 87.2% AP,在 CVPR 截止时排行榜上分别排名第2和第1。
- 在 KITTI 验证集上,VirConv-L、VirConv-T 和 VirConv-S 相较于 Voxel-RCNN 基线在 Car 3D AP (R40) 上分别提升 3.42%、5.0% 和 5.68%。
- NRConv(3D+2D 特征编码)将 Car 3D AP 从 88.32% 显著提升至 90.29%,在 VirConv-T 消融中。
- StVD 通过丢弃冗余的近邻体素(大约 90% 的输入减少)来加速推理,并通过模拟更稀疏样本来稳定性能。
- 在 nuScenes 上,VirConv 提升了 CenterPoint+VP 和 TransFusion-L+VP,且 VirConv 与 TransFusion-L+VP 结合在 NDS 上超过 TransFusion。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。