QUICK REVIEW

[论文解读] Diversity Regularized Spatiotemporal Attention for Video-based Person Re-identification

Shuang Li, Sławomir Bąk|arXiv (Cornell University)|Mar 27, 2018

Video Surveillance and Tracking Methods参考文献 24被引用 51

一句话总结

本文提出一个带有多种多样化空间注意力模型和时间注意力的时空注意力框架，通过多样性项正则化，以提升基于视频的人体再识别。它在 PRID2011、iLIDS-VID 和 MARS 上超越了最先进方法。

ABSTRACT

Video-based person re-identification matches video clips of people across non-overlapping cameras. Most existing methods tackle this problem by encoding each video frame in its entirety and computing an aggregate representation across all frames. In practice, people are often partially occluded, which can corrupt the extracted features. Instead, we propose a new spatiotemporal attention model that automatically discovers a diverse set of distinctive body parts. This allows useful information to be extracted from all frames without succumbing to occlusions and misalignments. The network learns multiple spatial attention models and employs a diversity regularization term to ensure multiple models do not discover the same body part. Features extracted from local image regions are organized by spatial attention model and are combined using temporal attention. As a result, the network learns latent representations of the face, torso and other body parts using the best available image patches from the entire video sequence. Extensive evaluations on three datasets show that our framework outperforms the state-of-the-art approaches by large margins on multiple metrics.

研究动机与目标

在帧级遮挡和对齐不良的情况下，推动鲁棒的视频基于人再识别。
开发一个时空注意力网络，能够自动发现多样化且具有信息量的身体部位。
对空间注意力进行正则化，防止冗余并促使不同的部位检测器具备区分性。
通过每个部位的时序注意力跨时间聚合区域特征，形成紧凑的视频描述符。

提出的方法

使用受限的随机采样从每个视频中选择 N 帧。
实现多个空间注意力模型，在每帧内定位辨识性区域。
应用基于海灵距（Hellinger distance）的多样性正则化项，鼓励多样且尽量不重叠的感受野。
计算每帧的空间特征，然后通过每个部位的时序注意力在时间上进行聚合，生成每个空间部位的 x_k。
在 K 个部位上将 x_k 拼接，并使用 Online Instance Matching (OIM) 损失进行监督。

实验结果

研究问题

RQ1一组多样且自动发现的空间注意力模型是否能改善视频再识别中的帧对齐和遮挡处理？
RQ2基于海灵距的多样性正则化是否能够降低部位检测器之间的冗余并提升识别准确率？
RQ3在视频跨时段聚合区域特征方面，每个部位的时序注意力与全局池化相比如何？
RQ4空间注意力模型数量 (K) 对再识别性能的影响是多少？
RQ5在标准视频再识别数据集上，与最先进方法相比，该方法的表现如何？

主要发现

方法	PRID2011 Rank-1	iLIDS-VID Rank-1	MARS Rank-1	MARS mAP
Baseline	82.7	61.2	73.4	58.1
SpaAtn	84.2	64.9	74.5	59.3
SpaAtn+Q′	86.5	64.5	74.0	58.2
SpaAtn+Q	86.7	68.6	77.0	60.9
SpaAtn+Q+MaxPool	86.9	68.2	76.8	60.5
SpaAtn+Q+TemAtn	88.4	69.7	77.1	61.2
SpaAtn+Q+TemAtn+Ind	93.2	80.2	82.3	65.8

在 PRID2011、iLIDS-VID 与 MARS 上，在 rank-1 Accuracy 和 mAP（对于 MARS）上超越了最先进方法。
多样化的空间注意力（K>1）带来更好的性能，实验中在 K≈6 时获得最大提升。
使用海灵距的多样性正则化提高了检测部位的区分性并降低了重叠。
在每个部位级别的时序注意力比逐帧或全局池化基线有更强的性能。
最终 SpaAtn+Q+TemAtn+Ind 设置在 rank-1 上达到 93.2%（PRID2011），80.2%（iLIDS-VID），82.3%（MARS）；MARS mAP：65.8。
与 Baseline 及若干变体相比，所提出的方法在所有数据集上均实现了持续的准确性提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。