[论文解读] Locate, Size and Count: Accurately Resolving People in Dense Crowds via Detection
本文提出 LSC-CNN,一种密集检测框架,在人群中定位、估算大小和计数头部——在定位和计数方面超越密度回归方法。
We introduce a detection framework for dense crowd counting and eliminate the need for the prevalent density regression paradigm. Typical counting models predict crowd density for an image as opposed to detecting every person. These regression methods, in general, fail to localize persons accurate enough for most applications other than counting. Hence, we adopt an architecture that locates every person in the crowd, sizes the spotted heads with bounding box and then counts them. Compared to normal object or face detectors, there exist certain unique challenges in designing such a detection system. Some of them are direct consequences of the huge diversity in dense crowds along with the need to predict boxes contiguously. We solve these issues and develop our LSC-CNN model, which can reliably detect heads of people across sparse to dense crowds. LSC-CNN employs a multi-column architecture with top-down feedback processing to better resolve persons and produce refined predictions at multiple resolutions. Interestingly, the proposed training regime requires only point head annotation, but can estimate approximate size information of heads. We show that LSC-CNN not only has superior localization than existing density regressors, but outperforms in counting as well. The code for our approach is available at https://github.com/val-iisc/lsc-cnn.
研究动机与目标
- 推动超越密度回归,在密集人群中实现头部的准确定位。
- 开发一个单阶段、适用于极端人群密度和多尺度的密集检测框架。
- 使头部定位可通过来自点头注释的边框预测来实现。
- 提供一种训练方案,在不需要显式边框注释的情况下估计边框大小。
提出的方法
- 提出 LSC-CNN,一种密集检测架构,它在多个尺度上预测预定义头部边框大小的每像素类别置信度。
- 使用基于修改后的 VGG-16 的多尺度特征提取器,生成一半、四分之一、八分之一和十六分之一分辨率的特征图。
- 结合 Top-down Feature Modulators (TFMs) 来融合多尺度特征并为精确定位提供上下文。
- 用基于点注释推导的伪地面实况,对预定义边框类别进行逐像素交叉熵损失。
- 采用 Grid Winner-Take-All (GWTA) 训练损失,聚焦难以区域并缓解局部极小值,同时进行尺度和类别的加权平衡。
- 通过最近邻距离近似头部大小,在各尺度生成伪地面实况边框箱(bin)。
实验结果
研究问题
- RQ1密集人群计数是否可以有效地被重新表述为逐像素头部检测问题,而非密度回归?
- RQ2多尺度特征和自上而下的上下文如何在高度密集的人群中改善头部的定位和大小估计?
- RQ3是否可行仅使用点头注释而无需边框注释来训练头部检测模型?
- RQ4采用带有伪地面实况的逐像素边框分类方法在不同密度范围内能否提供准确的计数?
主要发现
- LSC-CNN在定位方面优于密度回归方法。
- 该模型为头部提供边框并在不同密度人群下实现准确计数。
- 自上而下的特征调制有助于解决多尺度下的人群并减少在杂乱场景中的误检。
- 使用 GWTA 损失和基于点的伪监督进行训练,能够实现无需显式边框注释的端到端有效学习。
- 该方法实现高分辨率检测,超出通常脸部检测器,适用于密集人群。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。