[论文解读] RangeRCNN: Towards Fast and Accurate 3D Object Detection with Range Image Representation
RangeRCNN 引入基于距离图像的 2D CNN 主干,具 RV-PV-BEV 特征传输和两阶段 RCNN,用于 3D 目标检测,在 KITTI 与 Waymo 上达到最先进的结果,同时实现实时性能。
We present RangeRCNN, a novel and effective 3D object detection framework based on the range image representation. Most existing methods are voxel-based or point-based. Though several optimizations have been introduced to ease the sparsity issue and speed up the running time, the two representations are still computationally inefficient. Compared to them, the range image representation is dense and compact which can exploit powerful 2D convolution. Even so, the range image is not preferred in 3D object detection due to scale variation and occlusion. In this paper, we utilize the dilated residual block (DRB) to better adapt different object scales and obtain a more flexible receptive field. Considering scale variation and occlusion, we propose the RV-PV-BEV (range view-point view-bird's eye view) module to transfer features from RV to BEV. The anchor is defined in BEV which avoids scale variation and occlusion. Neither RV nor BEV can provide enough information for height estimation; therefore, we propose a two-stage RCNN for better 3D detection performance. The aforementioned point view not only serves as a bridge from RV to BEV but also provides pointwise features for RCNN. Experiments show that RangeRCNN achieves state-of-the-art performance on the KITTI dataset and the Waymo Open dataset, and provides more possibilities for real-time 3D object detection. We further introduce and discuss the data augmentation strategy for the range image based method, which will be very valuable for future research on range image.
研究动机与目标
- 将距离图像表示作为一个密集、无损的替代方案,用于 3D 检测的体素/点基方法
- 开发具有灵活感受野的距离图像主干以处理尺度变化
- 将距离视图特征桥接到鸟瞰视图(BEV),用于锚框生成与效率提升
- 通过两阶段 RCNN 对 3D 边界框进行 refined 提升高度估计与 3D 定位
- 在 KITTI 和 Waymo 数据集上展示最先进的性能和实时能力
提出的方法
- 在距离图像上使用带扩张残差块的 2D 编码器-解码器主干,以捕获多尺度特征
- 引入 DRB,通过将 3 个带扩张的 3×3 卷积(尺度为 1、2、3)与拼接和 1×1 融合结合,获得灵活的感受野
- 实现 RV-PV-BEV 模块,将特征从距离视图传输到 BEV,使 BEV 基于锚框生成的同时保留高层距离特征
- 从 BEV 使用区域建议网络 (RPN) 生成 3D 提案,并通过向量化 3D 网格以适用于全连接层的 3D RoI 池化进行 refinement
- 采用端到端的两阶段 RCNN 损失(L_total = L_rpn + L_rcnn),包括 focal 分类、平滑 L1 回归、方向分类、分数、 refinement 与角点损失
- 在 KITTI 和 Waymo 上进行数据增强(翻转、缩放、旋转、Waymo 的地面实况粘贴)和余弦退火学习率训练
实验结果
研究问题
- RQ1距离图像是否可以作为一个无损、密集的特征源,通过 2D CNN 实现快速的 3D 目标检测?
- RQ2如何有效将距离视图的特征传输到 BEV 以实现可靠的锚框生成?
- RQ3使用带 3D RoI 池化的两阶段 RCNN 是否比单阶段的距离图像检测器在高度估计与 3D 定位方面有改进?
- RQ4与基于体素/点的方法相比,RangeRCNN 在 KITTI 与 Waymo 上的性能与效率权衡如何?
主要发现
- RangeRCNN 在 KITTI 和 Waymo 基准测试上达到最先进的性能,超越了许多此前的方法。
- RangeRCNN 以 22 FPS 运行,具备实时能力。
- 在 KITTI 上,RangeRCNN 在 BEV 上大多数方法领先,在 3D 上接近第一名,RCNN refinement 带来显著的 3D 增益。
- Waymo Level 1 结果显示 RangeRCNN 超过了此前的方法,尤其在中到远距离(30–75 m)处。
- 消融研究显示 3D RCNN 池化对 3D 检测的价值以及对池化网格尺寸的鲁棒性。
- RangeRCNN 以距离图像驱动的特征在对象稀疏或距离较远时仍显示出强大的性能优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。