Skip to main content
QUICK REVIEW

[论文解读] 3DSSD: Point-based 3D Single Stage Object Detector

Zetong Yang, Yanan Sun|arXiv (Cornell University)|Feb 24, 2020
Advanced Neural Network Applications参考文献 43被引用 78
一句话总结

提出一种轻量、基于点的3D单阶段检测器,移除了上采样和细化阶段,使用融合采样策略和无锚头以在 KITTI 与 nuScenes 上实现快速且高精度的3D检测。

ABSTRACT

Currently, there have been many kinds of voxel-based 3D single stage detectors, while point-based single stage methods are still underexplored. In this paper, we first present a lightweight and effective point-based 3D single stage object detector, named 3DSSD, achieving a good balance between accuracy and efficiency. In this paradigm, all upsampling layers and refinement stage, which are indispensable in all existing point-based methods, are abandoned to reduce the large computation cost. We novelly propose a fusion sampling strategy in downsampling process to make detection on less representative points feasible. A delicate box prediction network including a candidate generation layer, an anchor-free regression head with a 3D center-ness assignment strategy is designed to meet with our demand of accuracy and speed. Our paradigm is an elegant single stage anchor-free framework, showing great superiority to other existing methods. We evaluate 3DSSD on widely used KITTI dataset and more challenging nuScenes dataset. Our method outperforms all state-of-the-art voxel-based single stage methods by a large margin, and has comparable performance to two stage point-based methods as well, with inference speed more than 25 FPS, 2x faster than former state-of-the-art point-based methods.

研究动机与目标

  • 在原始点云上直接实现高效、准确的3D目标检测,而无需体素化或两阶段细化。
  • 开发一个轻量级的基于点的单阶段框架,消除代价高昂的FP层和细化模块。
  • 提出融合采样以在下采样过程中保留内部点并实现鲁棒检测。
  • 设计候选中心生成层和带有3D中心性(3D center-ness)的无锚回归头,以平衡准确性与速度。
  • 在KITTI和nuScenes上展示最先进或具竞争力的性能,同时具备高速推理。

提出的方法

  • Backbone 使用多层集合抽象(set abstraction),结合 Fusion Sampling (FS) 以保留正内部点和具有代表性的负点。
  • Feature-FPS (F-FPS) 将空间距离与特征距离结合以选择点,减轻下采样过程中前景点的丢失。
  • Candidate Generation (CG) 层将 F-FPS 点偏移以生成候选中心并聚集周围点以进行特征提取。
  • 无锚回归头在单阶段内为每个候选点预测3D框偏移、尺寸和朝向。
  • 3D center-ness 分配通过使用 3D 几何中心性公式根据候选点与实例中心的距离来评分,以引导分类。
  • 损失函数结合分类、回归(距离、尺寸、角度、角点)以及对 CG 的位移监督。

实验结果

研究问题

  • RQ1一个完全基于点的3D检测器是否能够在不使用FP层或细化模块的情况下实现有竞争力的精度?
  • RQ2融合采样策略是否在具有挑战性的数据集上提升前景点保留率和整体检测性能?
  • RQ3无锚、受中心性引导的回归头在单阶段框架中是否足以实现准确的3D边界框回归?

主要发现

DatasetMethodEasy APModerate APHard AP
KITTI valVoxelNet [36]81.9765.4662.85
KITTI valSECOND [31]87.4376.4869.10
KITTI valPointPillars [13]-77.98-
KITTI valOurs89.7179.4578.67
  • 在 KITTI 上超过最先进的基于体素的单阶段检测器,并在高速度下与两阶段点基方法竞争(KITTI 上 Titan V 下每场景38 ms)。
  • 结合 F-FPS 和 D-FPS 的融合采样(FS)可保留内部点并保留足够的负点以实现鲁棒分类,从而提高 AP,相较于单独的 D-FPS 和 F-FPS。
  • 无锚回归结合 3D center-ness 通过优先考虑靠近实例中心的候选点实现强定位。
  • KITTI val 结果显示 Ours 在 Easy、Moderate、Hard 的 AP 分别为 89.71、79.45、78.67,超越 SECOND 与 VoxelNet,在 Moderate 上匹配或超过 PointPillars。
  • 在 nuScenes 上,Ours 的性能优于基于体素的单阶段方法并且与两阶段点基方法相当,同时具有更好的速度和属性预测。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。