QUICK REVIEW

[论文解读] Deep Recurrent Convolutional Networks for Video-based Person Re-identification: An End-to-End Approach

Lin Wu, Chunhua Shen|arXiv (Cornell University)|Jun 6, 2016

Video Surveillance and Tracking Methods参考文献 5被引用 56

一句话总结

该论文提出了一种用于基于视频的行人重识别的端到端深度循环卷积网络（Deep RCN），联合学习时空特征与相似性度量。通过利用多层级CNN特征和门控循环单元（GRUs）来建模帧间运动模式，再经过时间池化，该模型在iLIDS-VID（使用KISSME时达到46.1%的rank-1准确率）和PRID2011（使用KISSME时达到69.0%的rank-1准确率）上实现了最先进性能，优于先前方法。

ABSTRACT

In this paper, we present an end-to-end approach to simultaneously learn spatio-temporal features and corresponding similarity metric for video-based person re-identification. Given the video sequence of a person, features from each frame that are extracted from all levels of a deep convolutional network can preserve a higher spatial resolution from which we can model finer motion patterns. These low-level visual percepts are leveraged into a variant of recurrent model to characterize the temporal variation between time-steps. Features from all time-steps are then summarized using temporal pooling to produce an overall feature representation for the complete sequence. The deep convolutional network, recurrent layer, and the temporal pooling are jointly trained to extract comparable hidden-unit representations from input pair of time series to compute their corresponding similarity value. The proposed framework combines time series modeling and metric learning to jointly learn relevant features and a good similarity measure between time sequences of person. Experiments demonstrate that our approach achieves the state-of-the-art performance for video-based person re-identification on iLIDS-VID and PRID 2011, the two primary public datasets for this purpose.

研究动机与目标

解决在光照、姿态、视角和背景存在显著变化的视频序列中的行人重识别挑战。
克服现有视频重识别方法中手工设计特征与非端到端训练的局限性。
联合学习具有判别性的时空特征与鲁棒的相似性度量，用于视频序列。
通过利用时间动态与外观线索，实现跨非重叠摄像头视图的行人有效匹配。
通过学习超越训练域样本的度量，提升对未见身份的泛化能力。

提出的方法

使用深度CNN从每一帧中提取多层级卷积特征，以保留高空间分辨率，便于细粒度运动建模。
将提取的特征输入门控循环单元（GRU）网络，以建模时间变化并捕捉时间步之间的运动模式。
对GRU处理后的特征应用时间池化，生成紧凑的序列级表征。
使用对比损失端到端训练整个网络，联合优化特征提取与相似性度量学习。
在两个输入序列之间共享孪生子网络的参数，以确保一致的特征学习与相似性计算。
在特征提取后集成距离度量学习（如KISSME或LFDA），以进一步优化相似性得分。

实验结果

研究问题

RQ1端到端深度学习框架能否联合优化基于视频的行人重识别中的时空特征学习与相似性度量学习？
RQ2与高层特征或固定帧选择相比，通过循环单元建模低层CNN特征是否能更有效地捕捉运动模式？
RQ3所提出方法在零样本或分布外设置下是否能泛化到未见身份，这在监控应用中是必需的？
RQ4与帧级聚合或缺乏多层级特征融合的循环模型相比，时间池化与GRUs的结合如何影响性能？
RQ5与基于流水线的方法相比，使用对比损失进行端到端训练在多大程度上提升了重识别准确率？

主要发现

所提出的Deep RCN在iLIDS-VID数据集上结合KISSME距离度量时，实现了46.1%的rank-1准确率，超越了所有先前的最先进方法。
在PRID2011数据集上，该方法达到69.0%的rank-1准确率（使用KISSME），显著优于此前最佳结果64.1%（STFV3D+KISSME）。
在两个数据集上，该模型在所有指标上均优于HOG3D、FV2D、FV3D和STFV3D基线，证明了深度端到端特征学习的优越性。
集成距离度量学习（KISSME或LFDA）进一步提升了性能，表明学习到的特征与度量学习高度兼容。
GRU处理后特征的时间池化有效总结了长期运动与外观动态，实现了鲁棒的序列级表征。
使用多层级CNN特征相比仅使用单层级或高层特征，能更有效地建模细粒度运动模式。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。