Skip to main content
QUICK REVIEW

[论文解读] Center and Scale Prediction: A Box-free Approach for Pedestrian and Face Detection

Wei Liu, Irtiza Hasan|arXiv (Cornell University)|Apr 5, 2019
Advanced Neural Network Applications参考文献 72被引用 29
一句话总结

本文提出了一种无框目标检测方法,通过深度卷积特征将行人和人脸检测重新定义为中心点与尺度预测问题。通过将目标中心视为可学习的语义关键点,并利用标准卷积网络预测其尺度,该方法将检测简化为单阶段、无锚框的过程,在多个基准测试中实现了具有竞争力的准确率,并展现出强大的泛化能力。

ABSTRACT

Object detection generally requires sliding-window classifiers in tradition or anchor box based predictions in modern deep learning approaches. However, either of these approaches requires tedious configurations in boxes. In this paper, we provide a new perspective where detecting objects is motivated as a high-level semantic feature detection task. Like edges, corners, blobs and other feature detectors, the proposed detector scans for feature points all over the image, for which the convolution is naturally suited. However, unlike these traditional low-level features, the proposed detector goes for a higher-level abstraction, that is, we are looking for central points where there are objects, and modern deep models are already capable of such a high-level semantic abstraction. Besides, like blob detection, we also predict the scales of the central points, which is also a straightforward convolution. Therefore, in this paper, pedestrian and face detection is simplified as a straightforward center and scale prediction task through convolutions. This way, the proposed method enjoys a box-free setting. Though structurally simple, it presents competitive accuracy on several challenging benchmarks, including pedestrian detection and face detection. Furthermore, a cross-dataset evaluation is performed, demonstrating a superior generalization ability of the proposed method

研究动机与目标

  • 通过将检测重新定义为高层次语义特征检测任务,消除目标检测中对锚框或滑动窗口的需求。
  • 利用卷积网络将目标检测简化为直接的中心点与尺度预测问题。
  • 通过去除基于框的设计偏差,提升在不同数据集间的泛化能力。
  • 证明深度模型能够自然地检测语义目标中心与尺度,而无需显式的边界框监督。

提出的方法

  • 该方法使用深度卷积神经网络检测目标中心作为高层次语义特征,将其处理方式类似于边缘或角点检测器。
  • 通过独立的卷积头预测每个检测到的中心点的尺度,实现对尺度的感知定位。
  • 整个检测流程被实现为单阶段、端到端的卷积网络,无需锚框或区域建议。
  • 模型直接从特征图回归中心位置与尺度估计,使用标准回归损失进行训练。
  • 该方法利用现代CNN的层次化特征抽象能力,在不依赖低层次几何先验的前提下检测语义中心。
  • 该方法在行人检测与人脸检测基准上进行了评估,展现出在多样化数据集上的鲁棒性。

实验结果

研究问题

  • RQ1能否在不使用锚框或滑动窗口的前提下,将目标检测重新定义为中心点与尺度预测任务?
  • RQ2深度卷积网络能否有效检测行人和人脸等对象的高层次语义中心?
  • RQ3与基于锚框的方法相比,无框检测方法在不同数据集间是否具有更好的泛化能力?
  • RQ4与当前最先进的基于锚框的检测器相比,中心与尺度预测方法在行人和人脸检测任务中的性能如何?

主要发现

  • 所提出的无框方法在多个具有挑战性的行人和人脸检测基准测试中实现了具有竞争力的检测准确率。
  • 该模型在跨数据集评估中表现出卓越的泛化能力,表明其对领域偏移具有鲁棒性。
  • 通过消除锚框和滑动窗口,该方法简化了检测流程,同时保持了高性能。
  • 该方法成功利用深度特征实现语义中心检测,表明此类高层次抽象在检测任务中既可行又高效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。