Skip to main content
QUICK REVIEW

[论文解读] FCHD: Fast and accurate head detection in crowded scenes

Aditya Vora, Vinay Chilaka|arXiv (Cornell University)|Sep 24, 2018
Advanced Neural Network Applications参考文献 25被引用 23
一句话总结

FCHD 提出了一种轻量级、全卷积的头检测模型,基于有效感受野的锚框选择,专为密集人群场景优化,在 Brainwash 数据集上实现 0.70 mAP 的性能,并在 Quadro M1000M GPU 上实现 5 FPS 的推理速度,由于内存占用和推理时间低,特别适合边缘设备部署。

ABSTRACT

In this paper, we propose FCHD-Fully Convolutional Head Detector, an end-to-end trainable head detection model. Our proposed architecture is a single fully convolutional network which is responsible for both bounding box prediction and classification. This makes our model lightweight with low inference time and memory requirements. Along with run-time, our model has better overall average precision (AP) which is achieved by selection of anchor sizes based on the effective receptive field of the network. This can be concluded from our experiments on several head detection datasets with varying head counts. We achieve an AP of 0.70 on a challenging head detection dataset which is comparable to some standard benchmarks. Along with this our model runs at 5 FPS on Nvidia Quadro M1000M for VGA resolution images. Code is available at https://github.com/aditya-vora/FCHD-Fully-Convolutional-Head-Detector.

研究动机与目标

  • 解决以往模型因头部尺寸小、密度高而在高度密集场景中检测不准确的挑战。
  • 开发一种轻量级、实时的头检测系统,适用于资源受限设备的边缘部署。
  • 通过基于有效感受场而非理论感受场优化锚框尺度,提升密集场景中的检测性能。
  • 在基准头检测数据集上实现最先进或具有竞争力的性能,同时保持低推理时间和内存占用。

提出的方法

  • 采用基于预训练 VGG16 的全卷积网络(FCN)架构,在 conv5 层后移除最后几层,并添加三个新的 1×1 卷积头。
  • 使用单一全卷积网络联合预测边界框坐标(回归头)和头部分类得分(分类头),支持端到端训练。
  • 采用基于锚框的检测方法,每个特征图位置设置两个锚框尺寸,锚框选择依据网络的有效感受场,以更好地匹配密集场景中典型头部的尺度。
  • 对回归头和分类头均使用 1×1 卷积,输出维度取决于每个位置的锚框数量(N=2)。
  • 应用边界框变换,将预测的尺度和偏移值转换为每个锚框的实际空间坐标。
  • 使用标准检测损失函数进行模型训练,并通过消融实验验证锚框尺寸选择的有效性。

实验结果

研究问题

  • RQ1与基于理论感受场或固定锚框尺寸相比,基于有效感受场的锚框选择在密集场景中如何提升头检测性能?
  • RQ2全卷积、单阶段的头检测模型能否在保持低推理时间和内存占用的同时,实现具有竞争力的检测精度?
  • RQ3在高密度头检测场景中,不同锚框尺寸组合对 mAP 和推理速度有何影响?
  • RQ4与 SOTA 模型如 ReInspect 和基于 RCNN 的检测器相比,所提出的 FCHD 模型在基准数据集上的精确率、召回率和 mAP 表现如何?
  • RQ5该模型在高遮挡和高密度人群等挑战性条件下具有怎样的泛化能力?

主要发现

  • FCHD 在具有挑战性的 Brainwash 数据集上达到 0.70 mAP,优于三个基线模型,并与最佳性能模型(0.78 mAP)相当。
  • 在 HollywoodHeads 数据集上,FCHD 实现 0.74 mAP,比之前最先进方法高出约 2%。
  • 模型在 NVIDIA Quadro M1000M GPU 上运行速度为 5 FPS,比 ReInspect 快五倍,并在 Jetson TX2 边缘设备上实现 1.6 FPS。
  • 消融实验表明,32×32 和 64×64 的锚框尺寸可获得最高 mAP(0.70),验证了基于有效感受场的锚框选择的有效性。
  • 模型在高遮挡和高密度场景中表现出鲁棒性,定性结果(图 3)显示成功检测,但在低头部密度场景中偶有失败(图 4)。
  • 模型内存占用极低,可部署于嵌入式平台如 Jetson TX2,而 ReInspect 因内存限制无法加载。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。