QUICK REVIEW

[论文解读] People Counting in High Density Crowds from Still Images

Ankan Bansal, K. S. Venkatesh|arXiv (Cornell University)|Jul 30, 2015

Video Surveillance and Tracking Methods参考文献 14被引用 24

一句话总结

该论文提出了一种多源融合方法，用于在高密度静态图像中估计人群数量，采用SIFT特征、傅里叶分析、小波分解、GLCM特征以及低置信度头部检测。该方法在包含100张图像、每张图像最多有4,633人的数据集上，实现了377.7 ± 480.8的平均绝对误差和0.666 ± 1.123的平均归一化绝对误差，展示了在单特征方法失效的极端密度场景下的鲁棒性。

ABSTRACT

We present a method of estimating the number of people in high density crowds from still images. The method estimates counts by fusing information from multiple sources. Most of the existing work on crowd counting deals with very small crowds (tens of individuals) and use temporal information from videos. Our method uses only still images to estimate the counts in high density images (hundreds to thousands of individuals). At this scale, we cannot rely on only one set of features for count estimation. We, therefore, use multiple sources, viz. interest points (SIFT), Fourier analysis, wavelet decomposition, GLCM features and low confidence head detections, to estimate the counts. Each of these sources gives a separate estimate of the count along with confidences and other statistical measures which are then combined to obtain the final estimate. We test our method on an existing dataset of fifty images containing over 64000 individuals. Further, we added another fifty annotated images of crowds and tested on the complete dataset of hundred images containing over 87000 individuals. The counts per image range from 81 to 4633. We report the performance in terms of mean absolute error, which is a measure of accuracy of the method, and mean normalised absolute error, which is a measure of the robustness.

研究动机与目标

解决从静态图像中对极高密度人群进行计数时缺乏有效方法的问题，现有方法因遮挡和透视效应而失效。
通过融合互补的信息源，克服单特征方法的局限性，以提高准确性和鲁棒性。
开发一种可扩展、适用于实时应用的系统，用于朝觐地点和易发生踩踏事件的区域等关键应用场景。
通过增加50张新标注图像，扩展UCF人群计数数据集，以创建更大规模的高密度人群计数基准。
证明基于纹理的分析结合兴趣点和头部检测，在极端密度条件下优于单一方法。

提出的方法

融合多种独立特征：SIFT描述符、傅里叶分析、小波分解、GLCM特征以及低置信度头部检测，以估计人群数量。
每个特征源提供独立的计数估计值，附带置信度和统计度量，用于融合。
采用加权融合策略，结合不同来源的估计值，生成最终的、鲁棒的计数预测。
应用基于图像块和基于图像的整体评估，以衡量在不同密度和图像复杂度下的性能。
采用归一化绝对误差（NAE）和平均绝对误差（MAE）作为主要指标，评估准确性和鲁棒性。
引入一个包含100张标注的高密度人群图像的新数据集，将原始UCF数据集扩展了50张图像。

实验结果

研究问题

RQ1多源融合框架是否能在从静态图像中进行高密度人群计数时优于单特征方法？
RQ2在极端密度场景下，基于纹理的特征（傅里叶、小波、GLCM）与基于检测的特征相比表现如何？
RQ3透视畸变和镜头效应在多大程度上会降低人群计数模型的准确性？
RQ4在个体检测失败的高密度区域，引入低置信度头部检测是否能提升估计性能？
RQ5该模型在从低密度到极高密度（每张图像最多4,633人）的广泛人群密度范围内表现如何？

主要发现

在100张图像的完整数据集上，所提方法实现了377.7 ± 480.8的平均绝对误差（MAE）和0.666 ± 1.123的平均归一化绝对误差（NAE）。
该方法优于Rodriguez等人[25]和Lempitsky等人[3]的方法，但被Idrees等人[14]的计算成本更高的模型所超越。
当排除误差最大的10%图像后，MAE降至256.3 ± 217.7，NAE降至0.407 ± 0.328，表明在大多数图像上表现优异。
高绝对误差主要由极高密度图像中极端的透视变化和镜头畸变引起，尤其在人数超过2,000张图像中更为明显。
在低密度区域（低于500人），基于纹理的方法（包括小波和GLCM特征）效果有限，而头部检测和兴趣点方法表现更优。
对于人数少于2,000人的图像，基于图像块的误差保持较低且稳定，但在更高密度图像中显著上升，表明在极端密度下存在性能上限。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。