QUICK REVIEW

[论文解读] StarNet: Targeted Computation for Object Detection in Point Clouds

Jiquan Ngiam, Benjamin Caine|arXiv (Cornell University)|Aug 29, 2019

Advanced Neural Network Applications参考文献 51被引用 100

一句话总结

StarNet 是一个稀疏的、基于点的 LiDAR 探测器，使用数据相关的候选区域和局部特征提取，在实现与竞争对手相当的三维目标检测的同时，实现推断成本的动态控制与时序上下文信息。

ABSTRACT

Detecting objects from LiDAR point clouds is an important component of self-driving car technology as LiDAR provides high resolution spatial information. Previous work on point-cloud 3D object detection has re-purposed convolutional approaches from traditional camera imagery. In this work, we present an object detection system called StarNet designed specifically to take advantage of the sparse and 3D nature of point cloud data. StarNet is entirely point-based, uses no global information, has data dependent anchors, and uses sampling instead of learned region proposals. We demonstrate how this design leads to competitive or superior performance on the large Waymo Open Dataset and the KITTI detection dataset, as compared to convolutional baselines. In particular, we show how our detector can outperform a competitive baseline on Pedestrian detection on the Waymo Open Dataset by more than 7 absolute mAP while being more computationally efficient. We show how our redesign---namely using only local information and using sampling instead of learned proposals---leads to a significantly more flexible and adaptable system: we demonstrate how we can vary the computational cost of a single trained StarNet without retraining, and how we can target proposals towards areas of interest with priors and heuristics. Finally, we show how our design allows for incorporating temporal context by using detections from previous frames to target computation of the detector, which leads to further improvements in performance without additional computational cost.

研究动机与目标

激励利用 LiDAR 数据的稀疏性和三维特性用于实时自主驾驶的检测器。
开发一个完全基于点的探测器，使其独立处理提案且不依赖全局上下文。
引入廉价的、数据驱动的中心采样和局部点云特征化，以替代学习得到的区域提案。
展示推断时通过改变提案数量和每个提案的点数来动态分配计算。
证明来自前一帧的时序上下文可以将计算聚焦于提升检测效果而不增加额外成本。

提出的方法

提出 StarNet，这是一个本地的、非全局的探测器，从 LiDAR 点云中采样中心并独立处理每个中心。
使用随机采样或最远点采样（FPS）在 z 边界内生成提案中心，可选地用前一帧检测结果作为种子。
用一组 StarNet 块对每个提案周围的局部点云进行特征化，聚合局部/全局统计并为每个提案生成 384 维特征。
通过在每个中心周围应用数据相关的锚框网格来构建最终预测：从 384-d 特征投影到用于边界框参数的分类和回归对数值。
使用焦点损失进行分类训练，使用 SmoothL1 损失进行边界框回归；采用基于 IoU 的分配，采用正/负阈值方案。
通过使用前一帧中的高置信检测结果作为中心的种子来利用时序上下文，以在不重新训练的情况下提高当前帧的检测效果。

实验结果

研究问题

RQ1一个完全基于点的探测器，在本地、非聚合的提案上运行，是否能够与基于卷积的方法在三维目标检测上竞争？
RQ2利用 LiDAR 稀疏性和数据相关采样是否能够在不重新训练的情况下实现对推断成本的灵活控制？
RQ3将来自前一帧的时序上下文引入对检测性能和计算有何影响？
RQ4不同的中心采样策略（随机、FPS、时序种子）对检测覆盖率和准确度有何影响？

主要发现

StarNet 在 KITTI 和 Waymo Open Dataset 上的三维检测性能与卷积基线相比具有竞争力。
在 Waymo 行人检测中，StarNet 在相近或更低的计算量下，绝对 mAP 提升超过 7。
使用前一帧检测的时序上下文可以显著提升 mAP，例如在以先前检测结果作为中心种子时，行人 mAP 的相对提升可达约 40%。
使用 FPS 采样比随机采样能提供更均匀的空间覆盖和更好的中心提案，尤其是在固定提案预算时。
单一训练好的 StarNet 模型可以通过改变提案数量或每个提案的点数来适应计算成本，而无需重新训练，从而实现显著的效率提升。
使用时序种子时，在 384 个中心中使用 32 个前置检测将验证集的行人 mAP 从 41.8 提升至 53.2，192 个前置检测将其提升至 58.0（相对于 384 中心）；使用 512 个前置检测和 1024 中心可达到约 69.7 mAP。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。