Skip to main content
QUICK REVIEW

[论文解读] Top-Down Feedback for Crowd Counting Convolutional Neural Network

Deepak Babu Sam, R. Venkatesh Babu|arXiv (Cornell University)|Jul 24, 2018
Video Surveillance and Tracking Methods被引用 72
一句话总结

论文提出了一种自上而下的反馈机制,对底层CNN激活进行门控,以校正人群密度预测,在多个数据集上提升准确性。

ABSTRACT

Counting people in dense crowds is a demanding task even for humans. This is primarily due to the large variability in appearance of people. Often people are only seen as a bunch of blobs. Occlusions, pose variations and background clutter further compound the difficulty. In this scenario, identifying a person requires larger spatial context and semantics of the scene. But the current state-of-the-art CNN regressors for crowd counting are feedforward and use only limited spatial context to detect people. They look for local crowd patterns to regress the crowd density map, resulting in false predictions. Hence, we propose top-down feedback to correct the initial prediction of the CNN. Our architecture consists of a bottom-up CNN along with a separate top-down CNN to generate feedback. The bottom-up network, which regresses the crowd density map, has two columns of CNN with different receptive fields. Features from various layers of the bottom-up CNN are fed to the top-down network. The feedback, thus generated, is applied on the lower layers of the bottom-up network in the form of multiplicative gating. This masking weighs activations of the bottom-up network at spatial as well as feature levels to correct the density prediction. We evaluate the performance of our model on all major crowd datasets and show the effectiveness of top-down feedback.

研究动机与目标

  • 需要高层场景上下文来纠正人群计数中的密度预测。
  • 提出一个两路径架构:一个底层向上的密度回归器和一个自上而下的反馈生成器。
  • 证明来自自上而下反馈的乘法门控能在多数据集上提升计数准确性。
  • 给出消融实验以验证反馈机制的有效性与鲁棒性。

提出的方法

  • 具有两个不同感受野列的底层CNN回归器,用于预测密度图。
  • 自上而下的CNN从底层网络的高级特征生成反馈。
  • 反馈作为对底层CNN的低层激活的乘法门控进行应用。
  • 训练分阶段:先训练底层CNN,然后用计数损失和对门控特征的L1正则化来训练自上而下网络。
  • 在应用门控后产生最终密度图,底层训练使用标准的L2损失,自上而下训练使用计数损失。
  • 评估在四个数据集上使用MAE和MSE;由于池化,密度图下采样到1/4分辨率。

实验结果

研究问题

  • RQ1自上而下模块的高层场景上下文是否能降低密集人群中的误检?
  • RQ2相比基线的底层CNN,乘法门控底层激活是否提升了人群密度估计?
  • RQ3自上而下的反馈框架在密度和视角变化较大的数据集上是否鲁棒?
  • RQ4与其他多列网络相比,自上而下方法在参数效率上如何?

主要发现

  • TDF-CNN在Shanghaitech Part A和Part B上实现更低的MAE和MSE,且参数更少。
  • 消融显示,未使用反馈的底层CNN在Shanghaitech Part A上的MAE为147.4,经自上而下反馈后下降到97.5。
  • 即使只有一个9×9列时,自上而下反馈仍然有效,MAE下降21.4%。
  • 门控特征图作为稀疏掩膜,选择性地抑制虚假激活,同时保留有效响应。
  • 在UCF CC 50上,TDF-CNN取得354.7 MAE和491.4 MSE,参数为0.13M,与参数更多的方法具有竞争力。
  • 在WorldExpo’10上,该模型在若干序列中达到优越的平均MAE和场景级MAE,体现了数据集范围内的收益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。