Skip to main content
QUICK REVIEW

[论文解读] Objects as Points

Xingyi Zhou, Dequan Wang|arXiv (Cornell University)|Apr 16, 2019
Advanced Neural Network Applications参考文献 59被引用 739
一句话总结

本文提出 CenterNet,一种新颖的物体检测框架,将物体建模为单个中心点而非轴对齐的边界框。通过使用关键点估计来预测中心点,并回归物体属性(如尺寸、3D 位置和方向),CenterNet 在 MS COCO 上实现了最先进的速度-精度权衡,达到 142 FPS 时 28.1% AP,多尺度测试下 1.4 FPS 时达到 45.1% AP。

ABSTRACT

Detection identifies objects as axis-aligned boxes in an image. Most successful object detectors enumerate a nearly exhaustive list of potential object locations and classify each. This is wasteful, inefficient, and requires additional post-processing. In this paper, we take a different approach. We model an object as a single point --- the center point of its bounding box. Our detector uses keypoint estimation to find center points and regresses to all other object properties, such as size, 3D location, orientation, and even pose. Our center point based approach, CenterNet, is end-to-end differentiable, simpler, faster, and more accurate than corresponding bounding box based detectors. CenterNet achieves the best speed-accuracy trade-off on the MS COCO dataset, with 28.1% AP at 142 FPS, 37.4% AP at 52 FPS, and 45.1% AP with multi-scale testing at 1.4 FPS. We use the same approach to estimate 3D bounding box in the KITTI benchmark and human pose on the COCO keypoint dataset. Our method performs competitively with sophisticated multi-stage methods and runs in real-time.

研究动机与目标

  • 为解决传统物体检测器因枚举大量候选边界框而效率低下且复杂的问题。
  • 通过将每个物体建模为边界框中心点的单一点,简化物体检测,降低计算开销。
  • 通过消除后处理步骤并支持端到端可微训练,提升推理速度与精度。
  • 将中心点范式扩展至 3D 检测和人体姿态估计任务,证明其广泛适用性。

提出的方法

  • 检测器使用关键点估计来预测图像中每个物体的中心点。
  • 对于每个检测到的中心点,网络回归物体属性,包括宽度、高度、3D 位置、方向以及关键点坐标。
  • 该方法支持端到端可微训练,允许联合优化中心点预测头与回归头。
  • 单阶段架构无需区域建议网络或非极大值抑制。
  • 模型利用特征金字塔网络和沙漏式主干网络实现多尺度特征学习。
  • 通过相应调整回归头,将该方法适配至 KITTI 数据集的 3D 检测任务和 COCO 数据集的关键点估计任务。

实验结果

研究问题

  • RQ1物体检测能否被有效重构为以物体中心为基准的关键点估计问题?
  • RQ2将物体建模为单一点是否相比传统基于框的检测器能实现更快的推理速度与更高的精度?
  • RQ3中心点范式能否推广至 3D 物体检测与人体姿态估计任务?
  • RQ4在 MS COCO 和 KITTI 基准上,该方法与现有最先进检测器相比,在速度-精度权衡方面表现如何?

主要发现

  • CenterNet 在 MS COCO 上以 142 FPS 达到 28.1% AP,展现出优异的速度-精度权衡。
  • 在 52 FPS 时,模型达到 37.4% AP,优于许多同类检测器在相似推理速度下的表现。
  • 通过多尺度测试,CenterNet 在 MS COCO 上达到 45.1% AP,接近更复杂模型的性能。
  • 该方法在 KITTI 基准的 3D 检测任务中表现具有竞争力,实现实时推理。
  • CenterNet 在 COCO 数据集的人体关键点估计任务中达到最先进结果,同时保持实时推理速度。
  • 端到端可微设计消除了对后处理(如非极大值抑制)的需求。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。