Skip to main content
QUICK REVIEW

[论文解读] Jointly Attentive Spatial-Temporal Pooling Networks for Video-based Person Re-Identification

Shuangjie Xu, Yu Cheng|arXiv (Cornell University)|Aug 3, 2017
Video Surveillance and Tracking Methods被引用 40
一句话总结

本文提出ASTPN,一种用于基于视频的人重识别的联合空间-时间注意力池化网络,通过在特征表示学习过程中建模视频序列之间的相互依赖性来提升性能。通过在空间(每帧内的区域)和时间(序列中的帧)两个维度上引入感知相似度的注意力机制,ASTPN在iLIDS-VID、PRID-2011和MARS数据集上均超越了当前最先进方法,实现了SOTA性能,且计算开销极低。

ABSTRACT

Person Re-Identification (person re-id) is a crucial task as its applications in visual surveillance and human-computer interaction. In this work, we present a novel joint Spatial and Temporal Attention Pooling Network (ASTPN) for video-based person re-identification, which enables the feature extractor to be aware of the current input video sequences, in a way that interdependency from the matching items can directly influence the computation of each other's representation. Specifically, the spatial pooling layer is able to select regions from each frame, while the attention temporal pooling performed can select informative frames over the sequence, both pooling guided by the information from distance matching. Experiments are conduced on the iLIDS-VID, PRID-2011 and MARS datasets and the results demonstrate that this approach outperforms existing state-of-art methods. We also analyze how the joint pooling in both dimensions can boost the person re-id performance more effectively than using either of them separately.

研究动机与目标

  • 解决现有基于视频的人重识别方法中将序列表示独立处理的局限性,忽视了匹配对之间的相互影响。
  • 通过在池化过程中建模两个视频序列之间的相互依赖性,提升特征表示能力,灵感来源于人类视觉注意力机制。
  • 构建一个统一框架,通过相似度驱动的注意力机制,联合关注判别性空间区域和信息量丰富的时间帧。
  • 证明联合空间-时间注意力机制相比单独使用空间或时间注意力机制,或标准池化方法,能显著提升重识别性能。
  • 通过在不同数据集上的跨数据集性能评估,确保模型在未见数据分布下的泛化能力。

提出的方法

  • 采用孪生网络架构,利用CNN-RNN主干网络从两个输入视频序列中提取深层特征。
  • 计算两个序列特征之间的相似度得分,以指导空间和时间维度上的注意力学习。
  • 应用基于注意力向量的空间池化,突出显示每帧中因序列间相似度而具有判别性的区域。
  • 通过相似度驱动的注意力机制,选择关键帧,实现序列上的注意力时间池化,从而提升序列级表征能力。
  • 使用生成的注意力特征,通过孪生比较头进行最终分类或匹配。
  • 端到端训练整个网络,采用对比损失或三元组损失,以优化判别性特征学习和匹配准确率。

实验结果

研究问题

  • RQ1在人重识别中,联合关注空间和时间维度是否能显著提升性能,相比独立注意力或标准池化方法?
  • RQ2在特征池化过程中建模两个视频序列之间的相互依赖性,相较于独立处理,对匹配准确率有何影响?
  • RQ3所提出的注意力机制在视角变化、遮挡和光照变化等挑战性条件下,能多大程度上提升模型鲁棒性?
  • RQ4与仅在单一数据集上训练的模型相比,联合空间-时间注意力机制是否展现出更好的跨数据集泛化能力?
  • RQ5在单次采样和多次采样测试场景下,ASTPN的性能与当前最先进方法相比如何?

主要发现

  • ASTPN在iLIDS-VID、PRID-2011和MARS数据集上均达到SOTA性能,优于现有方法,包括RNN-CNN以及最大值/平均值池化基线方法。
  • 在PRID-2011数据集上,ASTPN在rank 2准确率上较RNN-CNN基线提升近10%,证明了联合注意力机制带来的显著性能增益。
  • 在iLIDS-VID数据集上,ASTPN相较RNN-CNN基线将rank 3准确率提升了5%,表明其具有更强的判别能力。
  • 在更具挑战性的MARS数据集上,ASTPN在rank 3准确率上较ATPN(仅时间注意力)高出约5%,验证了联合空间-时间学习的有效性。
  • 在跨数据集测试中,当在iLIDS-VID上训练并在50%的PRID-2011数据上测试时,ASTPN达到30%的rank-1准确率,优于RNN-CNN基线,展现出强大的泛化能力。
  • 与单次采样方法相比,基于视频的人重识别采用ASTPN可将rank-1准确率提升100%,证实了时间建模在提升鲁棒性方面的关键价值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。