QUICK REVIEW

[论文解读] STD: Sparse-to-Dense 3D Object Detector for Point Cloud

Zetong Yang, Yanan Sun|arXiv (Cornell University)|Jul 22, 2019

Advanced Neural Network Applications参考文献 34被引用 56

一句话总结

STD 引入一个两阶段的三维目标检测器，对点云上种子化球形锚框，使用 PointsPool 层形成紧凑的提案特征，并增加一个三维 IoU 分支以提升定位，实现 KITTI 数据集的最先进结果，推理速度约为 10 FPS。

ABSTRACT

We present a new two-stage 3D object detection framework, named sparse-to-dense 3D Object Detector (STD). The first stage is a bottom-up proposal generation network that uses raw point cloud as input to generate accurate proposals by seeding each point with a new spherical anchor. It achieves a high recall with less computation compared with prior works. Then, PointsPool is applied for generating proposal features by transforming their interior point features from sparse expression to compact representation, which saves even more computation time. In box prediction, which is the second stage, we implement a parallel intersection-over-union (IoU) branch to increase awareness of localization accuracy, resulting in further improved performance. We conduct experiments on KITTI dataset, and evaluate our method in terms of 3D object and Bird's Eye View (BEV) detection. Our method outperforms other state-of-the-arts by a large margin, especially on the hard set, with inference speed more than 10 FPS.

研究动机与目标

直接在原始点云上实现准确的三维目标检测，不依赖于大体素化。
提出基于点的提案生成和球形锚框，以保留定位信息。
引入 PointsPool 将稀疏的提案特征转换为 CNN 可处理的紧凑表示。
通过并行的三维 IoU 分支来增强框预测，以使定位与分类更好对齐。
在 KITTI BEV 与 3D 检测上展示最先进性能，实现实时推理速度。

提出的方法

对每个点使用球形感受野进行锚框种子化，以生成高召回率的提案。
使用三维语义分割骨干网络为提案打分提供逐点特征。
应用 PointsPool 层从内部点提取紧凑、可微分的提案特征。
采用两分支框预测器来估计框参数并预测 3D IoU，以改进 NMS 的排序。
整合混合角度预测（分类+回归）以实现方向的鲁棒估计。
使用多任务损失函数进行训练，结合分割、提案分类/回归以及 IoU/框损失。

实验结果

研究问题

RQ1点基策略的球形锚框是否能在减少锚框和计算量的同时实现高召回率？
RQ2通过 PointsPool 将稀疏提案特征转化为密集、CNN-friendly 表示是否能提升速度和准确性？
RQ33D IoU 预测分支是否能改进后处理和定位精度，相较于传统的 NMS？
RQ4采用此稀疏到密集的两阶段方法，在 KITTI BEV 和 3D 检测中可实现哪些增益？
RQ5该方法在标准 GPU 上的实时推理是否足够高效？

主要发现

方法	模态	AP_BEV 易	AP_BEV 中等	AP_BEV 困难	AP_3D 易	AP_3D 中等	AP_3D 困难
Ours	LiDAR	89.66	87.76	86.89	86.61	77.63	76.06

在 KITTI 的 Car、Pedestrian、Cyclist 的 BEV 与 3D 指标上达到最先进的性能，并在困难集上取得显著提升。
在 TitanV GPU 上实现约 10 FPS 的推理速度，优于基于体素和其他点基检测器。
球形锚框配合 PointsIoU 标签实现高召回，同时锚框数量显著减少（约从 ~16K 降至 ~500 经过剪枝）。
PointsPool 提供了一种可微分、梯度友好的方法，将稀疏内部点特征转化为密集的提案表示，使基于全连接层的头部得以高效实现。
IoU 估计分支提升了 NMS 的效果，在中等 KITTI 验证集上可带来约 1.1% 的提升，并且使分类置信度与定位质量之间的对齐程度更好。
将分类分数与预测 IoU 的排序结合（cls-score × 3D-IoU）比仅使用任一项时得到更好的最终 AP。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。