Skip to main content
QUICK REVIEW

[论文解读] Scale-Aware Attention Network for Crowd Counting

Rahul Rama Varior, Bing Shuai|arXiv (Cornell University)|Jan 17, 2019
Video Surveillance and Tracking Methods参考文献 29被引用 20
一句话总结

本文提出一种尺度感知注意力网络,通过在单次前向传播中利用可学习的软注意力机制和尺度感知损失函数,从CNN的不同层生成多尺度密度预测,从而提升人群计数性能。该方法在UCF-QNRF上实现25%的相对性能提升,在其他数据集上也取得约10%的增益,即使不依赖额外优化技巧也能达到最先进水平。

ABSTRACT

In crowd counting datasets, people appear at different scales, depending on their distance to the camera. To address this issue, we propose a novel multi-branch scale-aware attention network that exploits the hierarchical structure of convolutional neural networks and generates, in a single forward pass, multi-scale density predictions from different layers of the architecture. To aggregate these maps into our final prediction, we present a new soft attention mechanism that learns a set of gating masks. Furthermore, we introduce a scale-aware loss function to regularize the training of different branches and guide them to specialize on a particular scale. As this new training requires ground-truth annotations for the size of each head, we also propose a simple, yet effective technique to estimate it automatically. Finally, we present an ablation study on each of these components and compare our approach against the literature on 4 crowd counting datasets: UCF-QNRF, ShanghaiTech A & B and UCF_CC_50. Without bells and whistles, our approach achieves state-of-the-art on all these datasets. We observe a remarkable improvement on the UCF-QNRF (25%) and a significant one on the others (around 10%).

研究动机与目标

  • 解决由于人群与摄像头距离不同导致的个体尺度变化带来的挑战。
  • 提升在密集人群场景下的计数精度,此时人群个体在图像中呈现显著不同的尺度。
  • 开发一种方法,利用网络多层的层次化特征实现对尺度敏感的预测。
  • 引入可学习的注意力机制,动态加权多尺度预测结果。
  • 设计一种尺度感知损失函数,引导每个网络分支专注于特定的尺度范围。

提出的方法

  • 提出一种多分支架构,从CNN的不同层提取密度图,每个分支对特定的尺度范围敏感。
  • 引入一种软注意力机制,学习门控掩码,自适应地聚合多尺度密度图以生成最终预测。
  • 设计一种尺度感知损失函数,通过使用特定于尺度的监督信号,使每个分支专注于特定的尺度范围。
  • 开发一种自动头尺寸估计技术,在缺乏真实尺寸标注时生成伪尺度标注。
  • 采用单次前向传播生成所有多尺度预测及注意力融合结果,确保推理效率。
  • 利用主干网络多个阶段的特征图,捕捉细粒度与粗粒度的人群模式。

实验结果

研究问题

  • RQ1单个深度神经网络能否有效利用层次化特征,在多个尺度上预测人群密度?
  • RQ2如何设计注意力机制,以在无需额外监督的情况下最优地融合多尺度密度图?
  • RQ3尺度感知损失函数在多大程度上提升了各分支对特定尺度范围的专一性?
  • RQ4所提出的自动头尺寸估计技术在无需人工尺度标注的情况下,对实现尺度感知训练的有效性如何?
  • RQ5注意力机制与尺度感知损失的结合是否在多样化的群体计数基准上均带来一致的性能提升?

主要发现

  • 所提方法在四个基准数据集(UCF-QNRF、ShanghaiTech A & B、UCF_CC_50)上均达到最先进性能。
  • 在UCF-QNRF上,模型相比先前方法实现25%的相对性能提升,表明在极端密集场景下表现尤为突出。
  • 在ShanghaiTech A和B以及UCF_CC_50上,方法相比先前最先进方法取得约10%的显著提升。
  • 消融实验确认,尺度感知损失和软注意力机制对性能提升均至关重要。
  • 自动头尺寸估计技术可在无需人工尺度标注的情况下实现有效的尺度监督。
  • 该模型仅通过一次前向传播即实现上述性能,尽管进行多尺度处理,仍保持高推理效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。