Skip to main content
QUICK REVIEW

[论文解读] Object as Hotspots: An Anchor-Free 3D Object Detection Approach via Firing of Hotspots

Qi Chen, Lin Sun|arXiv (Cornell University)|Dec 30, 2019
Advanced Neural Network Applications参考文献 53被引用 22
一句话总结

本文提出了一种名为 Object as Hotspots (OHS) 的无锚点 3D 目标检测方法,将物体建模为点云中空间有序排列的非空体素(热点)。通过选择具有判别性的热点并利用四象限划分编码其空间关系,该方法缓解了物体间点云稀疏性不平衡问题,并在 KITTI 和 NuScenes 基准上实现了最先进性能,在 KITTI 上对骑行人和行人的检测排名首位,推理速度达 25 FPS。

ABSTRACT

Accurate 3D object detection in LiDAR based point clouds suffers from the challenges of data sparsity and irregularities. Existing methods strive to organize the points regularly, e.g. voxelize, pass them through a designed 2D/3D neural network, and then define object-level anchors that predict offsets of 3D bounding boxes using collective evidences from all the points on the objects of interest. Contrary to the state-of-the-art anchor-based methods, based on the very nature of data sparsity, we observe that even points on an individual object part are informative about semantic information of the object. We thus argue in this paper for an approach opposite to existing methods using object-level anchors. Inspired by compositional models, which represent an object as parts and their spatial relations, we propose to represent an object as composition of its interior non-empty voxels, termed hotspots, and the spatial relations of hotspots. This gives rise to the representation of Object as Hotspots (OHS). Based on OHS, we further propose an anchor-free detection head with a novel ground truth assignment strategy that deals with inter-object point-sparsity imbalance to prevent the network from biasing towards objects with more points. Experimental results show that our proposed method works remarkably well on objects with a small number of points. Notably, our approach ranked 1st on KITTI 3D Detection Benchmark for cyclist and pedestrian detection, and achieved state-of-the-art performance on NuScenes 3D Detection Benchmark.

研究动机与目标

  • 解决 LiDAR 点云中数据稀疏性和不规则性带来的 3D 目标检测挑战。
  • 克服现有基于锚点的方法因物体间点云稀疏性不平衡而对点数较多物体产生偏差的问题。
  • 提出一种新型物体表征方式,以捕捉具有判别性的部分及其空间构型,从而提升定位精度。
  • 设计一种无锚点检测头,采用独特的热点分配策略,实现在不同点密度物体间正样本的平衡。
  • 通过使用软 argmin 方法缓解尺度方差问题,提升无锚点检测中的回归稳定性。

提出的方法

  • 将物体表示为基于判别潜力选择的非空内部体素(称为‘热点’)的组合,以减少冗余。
  • 将真实标注分配给热点而非所有点,采用一种新颖的热点分配策略,实现在点数不同的物体间正样本的平衡。
  • 使用四象限划分(四个象限)编码热点之间的空间关系,通过建模粗粒度的空间布局提升定位精度。
  • 对回归目标应用软 argmin 方法,以处理尺度方差问题,避免使用锚点时的回归不平衡。
  • 将热点的空间编码作为辅助监督信号,对热点位置相对于物体中心(如前后、左右、象限)进行分类。
  • 采用基于鸟瞰图(BEV)的主干网络,检测头预测热力图和回归头以实现 3D 框预测,损失函数结合分类与回归任务。

实验结果

研究问题

  • RQ1基于判别性内部体素(热点)的组合式物体表征是否能提升稀疏 LiDAR 点云中的 3D 目标检测性能?
  • RQ2在 3D 检测中,如何有效缓解由尺寸、距离、遮挡或反射率等因素引起的物体间点云稀疏性不平衡问题?
  • RQ3在无锚点 3D 检测中,建模热点之间的空间关系是否能提升定位精度?
  • RQ4软 argmin 是否能有效解决无锚点 3D 检测中回归目标的不平衡问题,而无需预设锚点尺寸?
  • RQ5何种空间编码策略对热点最优化,能有效提升检测性能?

主要发现

  • 所提出的 OHS 方法在 NuScenes 3D 检测基准上实现了最先进性能,优于现有方法。
  • 在 KITTI 3D 检测基准上,该方法在骑行人和行人检测中排名第一,分别在 'easy' 和 'hard' 分割上达到 82.25% 和 89.48% 的 mAP。
  • 该方法在 KITTI 上实现了 25 FPS 的推理速度,证明了其具备实时处理能力。
  • 基于四象限的空间编码策略表现最佳,相比基线和其他编码方式,mAP 提升最高达 2.5%。
  • 消融实验表明,使用软 argmin 进行回归显著提升了性能,尤其在点数较少的小型物体上效果更明显。
  • 定性可视化结果表明,热点在结构显著部位(如汽车前角)被一致激活,说明模型学习到了有意义且具有判别性的特征。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。