[论文解读] Learn to Scale: Generating Multipolar Normalized Density Maps for Crowd Counting
本文提出了一种学习缩放模块(L2SM),通过使用多极中心损失将局部特征图归一化为聚类化的密度等级,使单一CNN能够稳健处理人群计数中的极端密度变化。该方法在上海AI实验室Part A、Part B、UCF_CC_50和UCF-QNRF数据集上的平均绝对误差(MAE)上分别优于先前方法4.2%、14.3%、27.1%和20.1%,达到当前最优性能。
Dense crowd counting aims to predict thousands of human instances from an image, by calculating integrals of a density map over image pixels. Existing approaches mainly suffer from the extreme density variances. Such density pattern shift poses challenges even for multi-scale model ensembling. In this paper, we propose a simple yet effective approach to tackle this problem. First, a patch-level density map is extracted by a density estimation model and further grouped into several density levels which are determined over full datasets. Second, each patch density map is automatically normalized by an online center learning strategy with a multipolar center loss. Such a design can significantly condense the density distribution into several clusters, and enable that the density variance can be learned by a single model. Extensive experiments demonstrate the superiority of the proposed method. Our work outperforms the state-of-the-art by 4.2%, 14.3%, 27.1% and 20.1% in MAE, on ShanghaiTech Part A, ShanghaiTech Part B, UCF_CC_50 and UCF-QNRF datasets, respectively.
研究动机与目标
- 为解决人群计数中极端密度差异带来的挑战,该挑战限制了单模型的泛化能力。
- 减少在人群密度差异极大的图像之间出现的密度模式偏移。
- 提升深度密度估计模型的鲁棒性与可迁移性。
- 通过端到端可训练的归一化方法,实现尺度不变密度表征的有效学习。
- 在多样化的群体计数数据集上展示优越的性能与泛化能力。
提出的方法
- 一个保持尺度的网络(SPN)从输入图像生成初始密度图。
- 将密度图划分为K×K个块,根据全局密度统计信息,将这些块分组为G个密度等级组。
- 通过可学习的缩放因子对每个块进行缩放,使其密度与聚类中心对齐,同时采用在线中心更新策略。
- 引入多极中心损失(MPCL),强制同一组内的所有块收敛至共享中心,从而降低块间方差。
- 通过拼接缩放后的块级输出,重建最终的密度图。
- 整个L2SM模块为端到端可微分结构,可无缝集成到任意基于CNN的密度估计框架中。
实验结果
研究问题
- RQ1通过学习的缩放实现密度分布浓缩,是否能提升在高度可变人群密度图像上的性能?
- RQ2与单中心或无中心监督相比,使用多个聚类中心(多极中心)在处理密度差异方面表现如何?
- RQ3该方法在具有显著不同密度分布的数据集之间,其泛化能力达到何种程度?
- RQ4与固定或静态归一化相比,所提出的在线中心学习策略是否能提升模型鲁棒性?
- RQ5真实标签变换与块划分策略对模型性能和推理效率的影响如何?
主要发现
- 在上海AI实验室Part A数据集上,该方法相比当前最优方法在平均绝对误差(MAE)上实现了4.2%的相对提升。
- 在UCF-QNRF数据集上,该方法相比先前方法将MAE降低了27.1%,展现出在极端密度场景下的强大性能。
- 在跨数据集迁移设置中,该方法显著优于D-ConvNet-v1和MCNN,表现出卓越的泛化能力。
- 当使用5个聚类中心并重新预测所有K×K区域时,L2SM模块每张图像仅增加0.068秒的推理时间,表明计算开销可忽略不计。
- 在适当权重(λ₂)下,多极中心损失显著提升了精度,且在广泛损失权重范围内性能保持稳定。
- 通过增加头间距离对真实标签进行变换,可减少密集区域中密度模式的偏移,从而提升预测精度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。