[论文解读] Dense Scale Network for Crowd Counting
本文提出 DSNet,一种用于人群计数的密集尺度单列卷积神经网络,通过使用精心选择的膨胀率的密集连接空洞卷积模块,捕获广泛且连续的尺度范围。通过堆叠三个此类模块并引入密集残差连接,同时采用多尺度密度层级一致性损失,DSNet 在 UCF-QNRF 和 UCF_CC_50 上将 MAE 降低高达 30%,在 ShanghaiTech 和 UCSD 上降低 20%,达到当前最优性能。
Crowd counting has been widely studied by computer vision community in recent years. Due to the large scale variation, it remains to be a challenging task. Previous methods adopt either multi-column CNN or single-column CNN with multiple branches to deal with this problem. However, restricted by the number of columns or branches, these methods can only capture a few different scales and have limited capability. In this paper, we propose a simple but effective network called DSNet for crowd counting, which can be easily trained in an end-to-end fashion. The key component of our network is the dense dilated convolution block, in which each dilation layer is densely connected with the others to preserve information from continuously varied scales. The dilation rates in dilation layers are carefully selected to prevent the block from gridding artifacts. To further enlarge the range of scales covered by the network, we cascade three blocks and link them with dense residual connections. We also introduce a novel multi-scale density level consistency loss for performance improvement. To evaluate our method, we compare it with state-of-the-art algorithms on four crowd counting datasets (ShanghaiTech, UCF-QNRF, UCF_CC_50 and UCSD). Experimental results demonstrate that DSNet can achieve the best performance and make significant improvements on all the four datasets (30% on the UCF-QNRF and UCF_CC_50, and 20% on the others).
研究动机与目标
- 解决人群计数中大规模变化的挑战,即图像中人群的大小和密度存在显著差异。
- 克服现有多列或多分支网络仅能捕捉有限数量离散尺度的局限性。
- 通过在感受野内实现密集、连续的尺度采样,提升稀疏与密集人群场景下的特征表示能力。
- 通过引入一种新型损失函数,强制预测与真实密度图在多个尺度下的密度层级保持一致,从而增强模型泛化能力。
- 采用简单、单列的端到端训练架构,在标准基准上超越复杂的多分支设计。
提出的方法
- 提出密集膨胀卷积模块(DDCB),其中多个具有精心选择膨胀率的空洞卷积被密集连接,以保留多尺度特征并避免网格伪影。
- 堆叠三个 DDCB 模块,并通过密集残差连接连接,逐步扩展有效感受野并增强尺度多样性。
- 引入多尺度密度层级一致性损失($L_c$),强制在不同尺度层级(如 1×1、2×2、4×4 池化输出)上,预测与真实密度图之间保持全局与局部一致性。
- 使用标准欧氏距离损失与所提出的 $L_c$ 损失相结合的方式,对整个网络进行端到端训练,提升跨尺度的特征对齐能力。
- 以 VGG-16 作为主干网络,逐步添加 DDCB 模块与残差连接,以消融分析各组件的贡献。
- 在多个尺度层级上应用平均池化,提取用于计算一致性损失的密度层级表示,确保全局与局部结构的一致性对齐。
实验结果
研究问题
- RQ1是否可以通过单列 CNN 搭载密集连接的空洞卷积,有效捕获人群计数中连续且广泛的尺度范围?
- RQ2与标准残差连接相比,DDCB 模块之间使用密集残差连接是否能进一步增强尺度多样性与特征重用?
- RQ3多尺度密度层级一致性损失是否能通过强制不同空间尺度下的结构与强度一致性,提升预测密度图的质量?
- RQ4所提出的损失函数在极端尺度变化的数据集上,能在多大程度上减少人群计数的误差?
- RQ5在多样化的基准数据集上,DSNet 在 MAE 与 MSE 指标上与当前最先进方法相比表现如何?
主要发现
- 在 ShanghaiTech Part_B 数据集上,DSNet 实现了最低的 MAE 值 6.74,显著优于以往最先进方法。
- 在 UCF-QNRF 与 UCF_CC_50 数据集上,DSNet 相较于现有方法将 MAE 降低了约 30%,在高度密集场景中表现出色。
- 消融实验表明,仅添加 DDCB 模块即可将 MAE 从 15.21 降低至 7.33,表明尺度建模能力得到显著增强。
- 密集残差连接进一步将 MAE 从 7.06 降低至 6.74,证明其在跨模块聚合多尺度特征方面的有效性。
- 多尺度一致性损失($L_c$)贡献显著,当最后添加时,可使 MAE 从 7.06 降低至 6.74,且在每个尺度层级(1×1、2×2、4×4)均呈现逐步改进。
- 完整模型在所有四个基准数据集——ShanghaiTech、UCF-QNRF、UCF_CC_50 与 UCSD 上,均实现了 MAE 与 MSE 指标的 SOTA 性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。