[论文解读] RGB-T Multi-Modal Crowd Counting Based on Transformer
本论文提出一种RGB-T人群计数模型,使用以计数为引导的多模态融合作用与多尺度令牌Transformer,在可学习的计数令牌下融合颜色与热成像特征,并结合模态引导计数增强,实现RGB-T人群计数的State-of-the-Art。
Crowd counting aims to estimate the number of persons in a scene. Most state-of-the-art crowd counting methods based on color images can't work well in poor illumination conditions due to invisible objects. With the widespread use of infrared cameras, crowd counting based on color and thermal images is studied. Existing methods only achieve multi-modal fusion without count objective constraint. To better excavate multi-modal information, we use count-guided multi-modal fusion and modal-guided count enhancement to achieve the impressive performance. The proposed count-guided multi-modal fusion module utilizes a multi-scale token transformer to interact two-modal information under the guidance of count information and perceive different scales from the token perspective. The proposed modal-guided count enhancement module employs multi-scale deformable transformer decoder structure to enhance one modality feature and count information by the other modality. Experiment in public RGBT-CC dataset shows that our method refreshes the state-of-the-art results. https://github.com/liuzywen/RGBTCC
研究动机与目标
- 通过利用RGB-T模态,在弱照度下实现鲁棒的人群计数
- 开发一种以计数为引导的融合机制,将RGB与热特征通过全局计数约束进行融合
- 引入多尺度令牌Transformer以应对人群规模的巨大变化
- 实现模态引导的计数增强,其中一个模态从另一个模态 Refin 租计数
提出的方法
- 使用两个PVT编码器提取高层RGB与热特征
- 引入可学习的计数令牌,通过Multi-Scale Token Transformer (MSTTrans) 指导RGB与热令牌的计数感知融合
- 构建三个令牌尺度(初始、中尺度、较大尺度),并应用并行多头自注意力进行融合
- 提出模态引导的计数增强模块(MSDTrans),使用可变形注意力从另一模态 Refin 一致密度/计数
- 使用回归头产生密度图,并对计数令牌使用L1损失,同时对密度图使用分布匹配损失
实验结果
研究问题
- RQ1计数引导的融合是否可在RGB-T人群计数中超越现有融合策略?
- RQ2多尺度令牌Transformer是否能缓解RGB-T计数中的大规模变化?
- RQ3模态引导的计数增强是否通过在模态间传递信息来提升密度图的准确性?
- RQ4所提出的模块(MSTTrans与MSDTrans)在标准RGB-T数据集上带来多少累积收益?
主要发现
- 我们的方法在RGBT-CC数据集上达到SOTA,在各指标上较第二优秀方法有明显提升
- MSTTrans使GAME(0)从11.62提升到10.91,受益于更好的融合与多尺度上下文
- MSDTrans通过使一个模态协助另一个模态进行计数估计,提供额外增益
- 完整模型在RGBT-CC上达到GAME(0)=10.90,GAME(1)=14.81,GAME(2)=19.02,GAME(3)=26.14,RMSE=18.79
- 消融研究证实计数引导与多尺度设计在融合与计数中的有效性
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。