Skip to main content
QUICK REVIEW

[论文解读] Crowd counting via scale-adaptive convolutional neural network

Lu Zhang, Miaojing Shi|arXiv (Cornell University)|Nov 13, 2017
Video Surveillance and Tracking Methods参考文献 31被引用 23
一句话总结

本文提出一种尺度自适应卷积神经网络(SaCNN)用于人群计数,通过融合深层卷积神经网络中多个层级的特征图(固定小感受野)来自适应地处理尺度和视角变化。通过引入相对计数损失与密度图损失相结合,SaCNN在稀疏人群场景中显著提升了泛化能力,在ShanghaiTech、UCF_CC_50、WorldExpo’10以及一个新的稀疏人群数据集SmartCity上实现了最先进性能。

ABSTRACT

The task of crowd counting is to automatically estimate the pedestrian number in crowd images. To cope with the scale and perspective changes that commonly exist in crowd images, state-of-the-art approaches employ multi-column CNN architectures to regress density maps of crowd images. Multiple columns have different receptive fields corresponding to pedestrians (heads) of different scales. We instead propose a scale-adaptive CNN (SaCNN) architecture with a backbone of fixed small receptive fields. We extract feature maps from multiple layers and adapt them to have the same output size; we combine them to produce the final density map. The number of people is computed by integrating the density map. We also introduce a relative count loss along with the density map loss to improve the network generalization on crowd scenes with few pedestrians, where most representative approaches perform poorly on. We conduct extensive experiments on the ShanghaiTech, UCF_CC_50 and WorldExpo datasets as well as a new dataset SmartCity that we collect for crowd scenes with few people. The results demonstrate significant improvements of SaCNN over the state-of-the-art.

研究动机与目标

  • 为解决人群计数中尺度与视角变化的挑战,特别是现有方法在稀疏场景下表现不佳的问题。
  • 设计一个带有固定小卷积核的单列CNN主干网络,以保持空间分辨率并实现深层、高效的训练。
  • 通过引入相对计数损失作为多任务目标,提升在稀疏人群场景中的泛化能力。
  • 收集并发布一个新的数据集SmartCity,包含高空视角图像,平均每张图像仅7.4名行人,以更好地评估稀疏人群计数。
  • 证明单列架构结合多尺度特征融合可优于多列设计,同时更加简洁且参数效率更高。

提出的方法

  • SaCNN使用带有小固定尺寸卷积核的单个CNN主干网络,以提取深层特征并保持高空间分辨率。
  • 从网络多个层级提取的特征图被上采样至相同空间尺寸后拼接,形成尺度自适应表示。
  • 融合后的特征图用于回归生成最终密度图,总行人计数通过积分获得。
  • 引入多任务损失函数,结合标准密度图损失与相对计数损失,以提升在稀疏场景中的性能。
  • 相对计数损失促使网络学习图像块之间的行人数量相对关系,从而增强在低密度图像中的泛化能力。
  • 收集并发布了一个新数据集SmartCity,包含高空视角图像,平均行人数量较低(每张图像7.4人),用于评估稀疏人群计数。

实验结果

研究问题

  • RQ1单列CNN结合多尺度特征融合是否能在人群计数中超越多列架构?
  • RQ2引入相对计数损失是否能提升在现有方法失效的稀疏人群场景中的泛化能力?
  • RQ3在密集数据集上训练的模型是否能有效泛化到极稀疏人群场景?
  • RQ4所提方法在从极稀疏到极密集的各类人群密度下表现如何?
  • RQ5统一的回归方法是否能在全范围人群密度下超越基于检测的方法?

主要发现

  • SaCNN在ShanghaiTech、UCF_CC_50和WorldExpo’10数据集上达到最先进性能,平均绝对误差(MAE)和均方误差(MSE)均有显著提升。
  • 在新数据集SmartCity上(平均每张图像7.4名行人),SaCNN的MAE达到8.6,接近平均行人数量,表明其在稀疏场景中具有强大泛化能力。
  • 与不使用相对计数损失的SaCNN相比,引入该损失后MAE降低9.2点,MSE降低11.8点,证明其在稀疏场景中的有效性。
  • 在密集场景(ShanghaiTech PartA/B)中,SaCNN优于基于YOLO9000的检测方法,尽管YOLO9000在极稀疏的SmartCity数据集上表现略优。
  • 消融实验表明,使用单列结合多尺度特征融合的模型可达到多列模型70%以上的准确率,表明其具有极高的效率与有效性。
  • 该模型在从极稀疏到极密集的全范围人群密度下均表现出良好泛化能力,在大多数设置下优于基于检测和回归的最先进方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。