QUICK REVIEW

[论文解读] Revisiting Temporal Modeling for Video-based Person ReID

Jiyang Gao, Ram Nevatia|arXiv (Cornell University)|May 5, 2018

Video Surveillance and Tracking Methods参考文献 12被引用 116

一句话总结

本文通过固定图像特征和损失，严格比较了四种基于时序的视频人再识别方法，并提出一个时序卷积注意力网络，在 MARS 数据集上达到顶尖表现。

ABSTRACT

Video-based person reID is an important task, which has received much attention in recent years due to the increasing demand in surveillance and camera networks. A typical video-based person reID system consists of three parts: an image-level feature extractor (e.g. CNN), a temporal modeling method to aggregate temporal features and a loss function. Although many methods on temporal modeling have been proposed, it is hard to directly compare these methods, because the choice of feature extractor and loss function also have a large impact on the final performance. We comprehensively study and compare four different temporal modeling methods (temporal pooling, temporal attention, RNN and 3D convnets) for video-based person reID. We also propose a new attention generation network which adopts temporal convolution to extract temporal information among frames. The evaluation is done on the MARS dataset, and our methods outperform state-of-the-art methods by a large margin. Our source codes are released at https://github.com/jiyanggao/Video-Person-ReID.

研究动机与目标

在保持图像特征提取器和损失函数固定的前提下，评估不同时序建模策略对基于视频的人再识别的影响。
在共同基线下评估四种时序结构（时序池化、时序注意力、RNN、3D CNN）。
提出一种使用时序卷积来捕捉逐帧信息的新型注意力生成网络。
为 MARS 数据集提供可重复的结果并向社区公开源代码。

提出的方法

固定 ResNet-50 图像特征提取器以及三元组+softmax 损失，以实现对时序方法的公平比较。
在 2D CNN 特征上使用三种时序聚合方法：时序池化（均值/最大值）、时序注意力（包含两个生成网络，使用 softmax 或 sigmoid 归一化）、以及 RNN（LSTM/GRU）变体。
将 3D CNN（3D ResNet-50）作为另一种片段编码器进行评估。
提出一个使用时序卷积来建模帧间关系的注意力生成网络。
采用 Batch Hard 三元组损失和交叉熵损失进行训练，并将两者结合为总损失。
在 MARS 上进行测试，按方法令片段长度 T 不同，并报告 mAP 与 CMC 指标。

实验结果

研究问题

RQ1当图像特征和损失保持不变时，不同的时序聚合策略如何比较？
RQ2基于 RNN 的时序建模在视频人再识别中是否优于或劣于更简单的聚合方法？
RQ3基于时序卷积的注意力机制是否比现有的注意力设计更能捕捉时序信息？
RQ4每种时序方法在 MARS 数据集上的总体性能如何，这些方法能否接近或超越此前的最先进水平？

主要发现

时序池化（均值）在 mAP 上比图像基线提升约 2-3 个百分点。
基于 RNN 的聚合在 MARS 上的表现落后于图像基线和时序池化。
具有时空卷积的时序注意力在若干指标上优于基于空间全连接的注意力和 3D CNN 基线。
基于时序卷积的注意力生成网络在时序方法中取得最佳性能。
他们的变体中报道的最佳单模型结果是 Ours (att)，在 MARS 上的 mAP 76.7，CMC-1 83.3，CMC-5 93.8，CMC-10 96.0，CMC-20 97.4。
与重新排序结合时，他们的方法达到 mAP 84.5，CMC-1 85.0，CMC-5 94.7，CMC-10 96.6，CMC-20 97.7（重新排序后）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。