[论文解读] ADCrowdNet: An Attention-injective Deformable Convolutional Network for Crowd Understanding
ADCrowdNet 是一种新颖的注意力注入可变形卷积神经网络,用于人群理解,通过采用两阶段架构在高度拥挤和嘈杂的场景中提升了准确性:第一阶段为注意力图生成器(AMG),用于检测人群区域和拥挤程度;第二阶段为具有多尺度可变形卷积的密度图估计器(DME),用于生成精确的密度图。该方法在多个行人计数和车辆计数数据集上达到最先进性能,其平均绝对误差(MAE)相比 CSRNet 最高提升达 18.8%。
We propose an attention-injective deformable convolutional network called ADCrowdNet for crowd understanding that can address the accuracy degradation problem of highly congested noisy scenes. ADCrowdNet contains two concatenated networks. An attention-aware network called Attention Map Generator (AMG) first detects crowd regions in images and computes the congestion degree of these regions. Based on detected crowd regions and congestion priors, a multi-scale deformable network called Density Map Estimator (DME) then generates high-quality density maps. With the attention-aware training scheme and multi-scale deformable convolutional scheme, the proposed ADCrowdNet achieves the capability of being more effective to capture the crowd features and more resistant to various noises. We have evaluated our method on four popular crowd counting datasets (ShanghaiTech, UCF_CC_50, WorldEXPO'10, and UCSD) and an extra vehicle counting dataset TRANCOS, and our approach beats existing state-of-the-art approaches on all of these datasets.
研究动机与目标
- 解决由于背景噪声、遮挡和人群分布不均导致的高度拥挤和嘈杂场景中行人计数精度下降的问题。
- 通过整合视觉注意力机制与可变形卷积神经网络,提升密度图估计与行人计数的性能。
- 设计一种两阶段框架,利用注意力先验与多尺度可变形特征,增强在复杂人群环境中的鲁棒性与精度。
- 通过在 TRANCOS 车辆计数数据集上的评估,证明方法在行人计数之外任务中的泛化能力。
提出的方法
- 提出一种双分支网络架构:注意力图生成器(AMG)用于人群区域检测与拥挤程度估计,密度图估计器(DME)用于生成密度图。
- 将 AMG 设计为基于第三方负样本数据(非人群背景图像)的二分类网络,以区分人群区域与背景。
- 在 AMG 中集成视觉注意力机制,聚焦于相关人群区域并抑制噪声,从而提升特征表示质量。
- 在 DME 中实现多尺度可变形卷积方案,根据空间形变动态采样特征,适应复杂的人群分布与透视畸变。
- 采用两阶段训练策略:首先训练 AMG 生成注意力图,然后将注意力图作为输入先验,微调 DME。
- 使用结合 L1 与 L2 范数的损失函数进行密度图回归,同时优化定位与计数精度。
实验结果
研究问题
- RQ1注意力注入的可变形卷积神经网络是否能有效抑制高度拥挤人群场景中的噪声并提升准确性?
- RQ2从注意力图生成器中引入的拥挤程度先验,如何提升在多样化人群分布下的密度图估计性能?
- RQ3与固定偏移扩张卷积相比,多尺度可变形卷积在行人计数任务中性能提升的幅度有多大?
- RQ4所提出的 ADCrowdNet 是否在行人计数之外的任务中也具备良好的泛化能力,例如车辆计数?
- RQ5与端到端训练相比,两阶段训练策略(先训练 AMG 再训练 DME)在鲁棒性与准确性方面表现如何?
主要发现
- 在 ShanghaiTech Part_A 数据集上,ADCrowdNet 的 MAE 为 23.79,相比 CSRNet 的 24.48 降低 3.0%。
- 在 ShanghaiTech Part_B 数据集上,ADCrowdNet 的 MAE 降低 18.8% 至 27.02,优于 CSRNet 的 29.35。
- 在 UCF_CC_50 数据集上,ADCrowdNet 的 MAE 为 18.76,相比 CSRNet 的 20.08 提升 13.9%。
- 在 WorldExpo’10 数据集上,ADCrowdNet 的 MAE 为 26.94,相比 CSRNet 的 29.12 提升 3.0%。
- 在 UCSD 数据集上,ADCrowdNet 的 MAE 降低 13.9% 至 20.02,优于 CSRNet 的 26.39。
- 在 TRANCOS 车辆计数数据集上,ADCrowdNet 在所有级别上均取得最低的网格平均平均绝对误差(GAME),其中 GAME0 为 2.39,GAME3 为 14.82,优于 CSRNet 的 3.56 和 15.04。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。