[论文解读] Perspective-Guided Convolution Networks for Crowd Counting
PGCNet 使用透视引导卷积来将特征平滑适应场景内尺度变化,具备透视估计分支和一个新的 Crowd Surveillance 数据集,在多个基准上实现了最先进的结果。
In this paper, we propose a novel perspective-guided convolution (PGC) for convolutional neural network (CNN) based crowd counting (i.e. PGCNet), which aims to overcome the dramatic intra-scene scale variations of people due to the perspective effect. While most state-of-the-arts adopt multi-scale or multi-column architectures to address such issue, they generally fail in modeling continuous scale variations since only discrete representative scales are considered. PGCNet, on the other hand, utilizes perspective information to guide the spatially variant smoothing of feature maps before feeding them to the successive convolutions. An effective perspective estimation branch is also introduced to PGCNet, which can be trained in either supervised setting or weakly-supervised setting when the branch has been pre-trained. Our PGCNet is single-column with moderate increase in computation, and extensive experimental results on four benchmark datasets show the improvements of our method against the state-of-the-arts. Additionally, we also introduce Crowd Surveillance, a large scale dataset for crowd counting that contains 13,000+ high-resolution images with challenging scenarios.
研究动机与目标
- 解决由透视造成的场景内极端群体尺度变化问题。
- 引入可学习的透视引导卷积(PGC)模块,以在空间上自适应感受野。
- 加入透视估计分支,使端到端训练在有或无透视标注的情况下都可进行。
- 提出 Crowd Surveillance,这是一个用于健壮基准测试的大规模高分辨率人群计数数据集。
- 在多个公开数据集上展示最先进的结果。
提出的方法
- 引入结合了空间可变高斯平滑与后续空间不变卷积的透视引导卷积(PGC)。
- 利用可学习的透视图通过基于sigmoid的归一化及其与标准差的学习线性关系来计算模糊度图。
- 通过高斯核的 PCA 基础分解高效近似空间可变平滑以降低计算量。
- 将 PGC 块嵌入单列骨干网以形成 PGCNet,堆叠五个 PGC 块用于密度图估计。
- 添加透视估计分支(PENet),通过三阶段自编码策略进行训练,以实现有监督或弱监督学习,即使在没有透视标注时也能进行端到端训练。
- 引入 Crowd Surveillance 数据集(13,945 张高分辨率图像),并配备 ROI 掩模,以推进人群计数研究。
实验结果
研究问题
- RQ1如何利用透视信息在单列 CNN 中处理场景内连续的群体尺度变化?
- RQ2是否可以训练透视估计分支以在无透视标注的情况下实现端到端的人群计数?
- RQ3将透视引导卷积插入相比多尺度或扩张卷积架构的增益有多大?
- RQ4在分辨率和变化性方面,所提出的 Crowd Surveillance 数据集与现有基准相比如何?
主要发现
| 数据集/场景 | MAE | MSE |
|---|---|---|
| ShanghaiTech Part A | 57.0 | 86.0 |
| ShanghaiTech Part B | 8.8 | 13.7 |
| WorldExpo’10 Avg | 8.1 | |
| Crowd Surveillance | 7.2 | 15.6 |
- PGCNet 在 ShanghaiTech Part A(57.0 MAE,86.0 MSE)和 Part B(8.8 MAE,13.7 MSE)上达到最先进或具竞争力的 MAE/MSE。
- 在 WorldExpo’10 上,PGCNet 在所有场景中获得最佳平均 MAE(8.1),相比基线有显著提升。
- 在 UCF_CC_50 上,PGCNet 变体在端到端 PENet 训练下达到 244.6 的 MAE,相比 CSRNet 基线 (~264.0)。
- 在 Crowd Surveillance 上,PGCNet 在端到端训练下达到 MAE 7.2(而某些基线的范围为 9.8–16.4)。
- PENet 透视估计器提供鲁棒的透视图,使用 PENet 的端到端训练相比仅使用 PENet 指导的预训练可带来额外的 MAE 增益。
- Crowd Surveillance 提供 13,945 张高分辨率图像和超过 386k 的标注人数,显著扩展了规模和对人群计数基准的挑战条件。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。