QUICK REVIEW

[论文解读] Multi-scale 3D Convolution Network for Video Based Person Re-Identification

Jianing Li, Shiliang Zhang|arXiv (Cornell University)|Nov 19, 2018

Video Surveillance and Tracking Methods参考文献 26被引用 29

一句话总结

该论文提出了一种双流3D卷积网络，采用多尺度3D（M3D）卷积层和残差注意力层（RAL），以联合学习视频行人重识别中的空间与时间特征。通过将紧凑的M3D层插入2D CNN，该方法仅增加4MB参数开销，即实现了SOTA性能，在MARS、PRID2011和iLIDS-VID数据集上优于现有的3D CNN和SOTA方法。

ABSTRACT

This paper proposes a two-stream convolution network to extract spatial and temporal cues for video based person Re-Identification (ReID). A temporal stream in this network is constructed by inserting several Multi-scale 3D (M3D) convolution layers into a 2D CNN network. The resulting M3D convolution network introduces a fraction of parameters into the 2D CNN, but gains the ability of multi-scale temporal feature learning. With this compact architecture, M3D convolution network is also more efficient and easier to optimize than existing 3D convolution networks. The temporal stream further involves Residual Attention Layers (RAL) to refine the temporal features. By jointly learning spatial-temporal attention masks in a residual manner, RAL identifies the discriminative spatial regions and temporal cues. The other stream in our network is implemented with a 2D CNN for spatial feature extraction. The spatial and temporal features from two streams are finally fused for the video based person ReID. Evaluations on three widely used benchmarks datasets, i.e., MARS, PRID2011, and iLIDS-VID demonstrate the substantial advantages of our method over existing 3D convolution networks and state-of-art methods.

研究动机与目标

为解决现有3D CNN在视频ReID中因模型规模过大而导致参数量高、训练困难的问题。
在紧凑高效的架构中实现有效的多尺度时间特征学习，用于视频行人重识别。
通过残差注意力机制联合学习空间与时间注意力掩码，提升特征判别能力。
与现有3D CNN及SOTA方法相比，实现模型效率与性能之间的更好权衡。
展示结合2D CNN提取空间特征与M3D-CNN提取时间特征的双流架构的有效性。

提出的方法

该方法提出一种多尺度3D（M3D）卷积层，通过使用具有不同感受野的并行时间卷积核，捕捉多尺度时间线索。
将M3D层插入预训练的2D CNN主干网络中，实现仅增加极少参数的高效时间建模。
设计了一种残差注意力层（RAL），以残差方式学习空间-时间注意力掩码，增强判别性特征并抑制噪声。
网络采用双流架构：一路使用2D CNN提取空间/外观特征，另一路使用M3D-CNN提取时间特征。
在网络早期阶段融合空间与时间特征，以实现联合优化与互补学习。
模型使用交叉熵损失结合Softmax进行训练，特征匹配通过欧氏距离完成。

实验结果

研究问题

RQ1紧凑的3D卷积网络能否在不显著增加模型规模的前提下，有效学习用于视频ReID的多尺度时间特征？
RQ2残差注意力机制的集成如何提升视频ReID中的时间特征学习能力？
RQ3结合2D CNN与M3D-CNN的双流架构是否优于单流或RNN-based方法？
RQ4所提方法能否在保持计算效率和训练简便性的同时实现SOTA性能？
RQ5该模型在不同数据规模的基准（如MARS、PRID2011和iLIDS-VID）上是否具有良好的泛化能力？

主要发现

在MARS数据集上，所提方法达到74.06%的mAP和84.39%的rank-1准确率，相比之前SOTA方法DRSA在mAP上高出8.26个百分点。
仅增加4MB参数，该方法将基线2D CNN的mAP从62.5%提升至69.9%，展现出极高的效率与有效性。
与使用186MB参数、在MARS上达到62.8% mAP的I3D模型相比，所提M3D-CNN以显著更少的参数实现了更高的性能（74.06% mAP）。
在PRID2011上，该方法达到94.40%的rank-1准确率和100.00%的rank-5准确率，相比之前SOTA方法AMOC在rank-1上高出10.7个百分点。
在iLIDS-VID上，该方法达到74.00%的rank-1准确率和94.33%的rank-5准确率，尽管DRSA使用了多任务学习和OIM损失，本方法仍表现更优。
消融研究证实，M3D层与RAL均对性能有显著贡献，双流特征融合取得最佳结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。