Skip to main content
QUICK REVIEW

[论文解读] CCTrans: Simplifying and Improving Crowd Counting with Transformer

Ye Tian, Xiangxiang Chu|arXiv (Cornell University)|Sep 29, 2021
Video Surveillance and Tracking Methods参考文献 48被引用 64
一句话总结

CCTrans 使用金字塔视觉变换器骨干网络,结合金字塔特征聚合和轻量级多尺度扩张回归头,在全监督和弱监督设置下实现最先进的人群计数。它在 NWPU-Crowd 排名第一,并在多个基准上优于前代方法。

ABSTRACT

Most recent methods used for crowd counting are based on the convolutional neural network (CNN), which has a strong ability to extract local features. But CNN inherently fails in modeling the global context due to the limited receptive fields. However, the transformer can model the global context easily. In this paper, we propose a simple approach called CCTrans to simplify the design pipeline. Specifically, we utilize a pyramid vision transformer backbone to capture the global crowd information, a pyramid feature aggregation (PFA) model to combine low-level and high-level features, an efficient regression head with multi-scale dilated convolution (MDC) to predict density maps. Besides, we tailor the loss functions for our pipeline. Without bells and whistles, extensive experiments demonstrate that our method achieves new state-of-the-art results on several benchmarks both in weakly and fully-supervised crowd counting. Moreover, we currently rank No.1 on the leaderboard of NWPU-Crowd. Our code will be made available.

研究动机与目标

  • 通过更好地建模全球上下文,超越受限的 CNN 感受野,推动人群计数的改进。
  • 提出一个简化的、基于变换器的管线,统一全监督与弱监督人群计数。
  • 利用金字塔变换器的全局上下文,并聚合多层特征以获得精准的密度图。
  • 开发一个具备多尺度感受野的轻量级回归头及定制化损失。
  • 在五个标准基准上展示最先进的性能。

提出的方法

  • 将图像转换为一个一维补丁序列,并使用金字塔变换器骨干(Twins)处理以捕获全局上下文。
  • 将阶段输出重塑为二维特征图,并应用 Pyramid Feature Aggregation,将低层和高层信息结合起来。
  • 使用带有多尺度扩张卷积的回归头,以多尺度感受野回归密度图。
  • 使用定制化损失进行训练:全监督密度回归损失结合 L1、OT 和平滑的 L2 项;以及弱监督平滑的 L1 计数损失。
  • 通过将密度图像素求和以获得人群计数,可选地在弱监督下运行。
  • 结合两个设计模块(PFA 和 MDC)以及周密的损失设置,以在不过度增加复杂度的前提下实现出色性能。

实验结果

研究问题

  • RQ1在两种监督模式下,基于变换器的骨干网络结合简单特征聚合,是否可以在标准基准上达到或超过基于 CNN 的人群计数管线?
  • RQ2当全局上下文被金字塔变换器很好建模时,轻量级多尺度扩张回归头是否足以实现精确的密度图回归?
  • RQ3定制化损失函数对全监督和弱监督人群计数性能的影响是什么?
  • RQ4提出的 CCTrans 与基于变换器的对手如 TransCrowd 和 BCCT 在各数据集上的表现如何?

主要发现

  • CCTrans 在多项流行的人群计数基准上,在全监督和弱监督设置下都取得了新的状态最优结果。
  • 在 NWPU-Crowd 上,CCTrans 在排行榜中排名第一(报告验证与测试性能)。
  • 一个简单的带多尺度扩张卷积(MDC)的回归头有效地利用多尺度上下文进行密度回归。
  • 金字塔特征聚合(PFA)通过融合多阶段变换器特征显著提升性能。
  • 经过精心设计的损失函数(弱监督为平滑的 L1;全监督为 L1+OT+平滑的 L2)提高鲁棒性与准确性。
  • 消融研究确认了 PFA 与 MDC 对最终性能的贡献。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。