QUICK REVIEW

[论文解读] PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud

Shaoshuai Shi, Xiaogang Wang|arXiv (Cornell University)|Dec 11, 2018

3D Shape Modeling and Analysis参考文献 44被引用 161

一句话总结

PointRCNN 引入了一种两阶段的三维检测框架，直接从原始点云生成自下而上的三维候选框，并在规范坐标系中对其进行细化，仅使用 LiDAR 点云即可在 KITTI 上达到最先进的结果。

ABSTRACT

In this paper, we propose PointRCNN for 3D object detection from raw point cloud. The whole framework is composed of two stages: stage-1 for the bottom-up 3D proposal generation and stage-2 for refining proposals in the canonical coordinates to obtain the final detection results. Instead of generating proposals from RGB image or projecting point cloud to bird's view or voxels as previous methods do, our stage-1 sub-network directly generates a small number of high-quality 3D proposals from point cloud in a bottom-up manner via segmenting the point cloud of the whole scene into foreground points and background. The stage-2 sub-network transforms the pooled points of each proposal to canonical coordinates to learn better local spatial features, which is combined with global semantic features of each point learned in stage-1 for accurate box refinement and confidence prediction. Extensive experiments on the 3D detection benchmark of KITTI dataset show that our proposed architecture outperforms state-of-the-art methods with remarkable margins by using only point cloud as input. The code is available at https://github.com/sshaoshuai/PointRCNN.

研究动机与目标

推动直接从原始 LiDAR 点云进行鲁棒的三维目标检测，而不使用基于图像的候选框或体素化。
提出一个自下而上的三维候选框生成模块，通过分割前景点并生成高召回率的候选框。
开发一个规范坐标细化阶段，学习用于框回归和置信度估计的精确局部特征。
引入基于箱的局部化损失，以稳定和加速三维框中心和姿态的学习。
展示在 KITTI 三维目标检测基准上仅使用点云即可达到的最先进性能。

提出的方法

通过前景分割和逐点特征从原始点云进行自下而上的三维候选框生成。
基于 PointNet++ 的主干网络，使用多尺度分组提取逐点特征。
前景分割以真实3D框为监督，使用 focal loss 来处理类别不平衡。
在中心(x,z)和朝向(theta)上的三维框候选项进行基于箱的回归，包含分类+残差项。
在鸟瞰视图中进行非极大抑制以选择用于阶段2细化的高质量候选框。
在扩大后的候选框内进行基于补丁的区域池化，以收集局部点和特征，在规范坐标下进行细化。
将池化后的点进行规范变换，以减少姿态变化并改善局部特征学习。
阶段2细化网络结合局部特征（变换后的点）和全局特征（阶段1的特征）来预测置信度和框的改进。
阶段2中对中心、尺度和姿态的细化采用基于箱的损失和残差损失，并结合 IoU 指引的正例分配。

实验结果

研究问题

RQ1是否可以直接从原始点云生成高质量的三维候选框，而不将其投影到体素、也不使用二维/三维锚框？
RQ2在使用聚合后的候选框特征时，规范坐标细化能否提升三维框定位和分类？
RQ3基于箱的局部化损失对三维中心和姿态估计的收敛性和准确性有何影响？

主要发现

方法（模态）	汽车 AP IoU=0.7 Easy	汽车 AP IoU=0.7 Moderate	汽车 AP IoU=0.7 Hard
MV3D	71.29	62.68	56.56
VoxelNet	81.98	65.46	62.85
SECOND	87.43	76.48	69.10
AVOD-FPN	84.41	74.44	68.65
F-PointNet	83.76	70.92	63.65
Ours (no GT-AUG)	88.45	77.67	76.30
Ours	88.88	78.63	77.38

PointRCNN 使用仅 LiDAR 点云作为输入即可在 KITTI 上达到最先进的结果。
自下而上的候选框生成在少量候选框下获得较高的召回率（例如，50 个候选框在 IoU 0.5 下对汽车的召回率为 96.01%；300 个候选框达到 98.21% 的召回率）。
在 KITTI 验证集的汽车类别上，PointRCNN 在 IoU 0.7 下达到 88.88（Easy）、78.63（Moderate）、77.38（Hard），优于此前方法。
阶段2 的规范化细化同时利用局部池化点和阶段1的全局特征，从而实现更好的框定位和置信度估计。
在 KITTI 验证集难度 Hard 的汽车类别上，较之前的最佳方法显著提升了 8.28 AP。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。