QUICK REVIEW

[论文解读] Multi-scale Deep Learning Architectures for Person Re-identification

Xuelin Qian, Yanwei Fu|arXiv (Cornell University)|Sep 15, 2017

Video Surveillance and Tracking Methods参考文献 33被引用 37

一句话总结

本文提出 MuDeep，一种用于行人重识别的多尺度深度学习架构，该架构显式地在多个空间尺度上学习判别性特征，并通过基于显著性的融合层自适应地融合这些特征。该模型在 CUHK01、PRID-2011 和 iLIDS-VID 数据集上均优于最先进方法，在 CUHK01 上达到 79.01% 的 rank-1 准确率，在 PRID-2011 上达到 65%，通过联合多尺度特征学习与注意力驱动融合，展现出卓越性能。

ABSTRACT

Person Re-identification (re-id) aims to match people across non-overlapping camera views in a public space. It is a challenging problem because many people captured in surveillance videos wear similar clothes. Consequently, the differences in their appearance are often subtle and only detectable at the right location and scales. Existing re-id models, particularly the recently proposed deep learning based ones match people at a single scale. In contrast, in this paper, a novel multi-scale deep learning model is proposed. Our model is able to learn deep discriminative feature representations at different scales and automatically determine the most suitable scales for matching. The importance of different spatial locations for extracting discriminative features is also learned explicitly. Experiments are carried out to demonstrate that the proposed model outperforms the state-of-the art on a number of benchmarks

研究动机与目标

为解决现有深度 re-ID 模型仅在单一尺度上运行且无法充分利用细微局部差异的局限性。
学习在多个空间尺度上的判别性特征，如同人类在视觉匹配过程中所做的一样。
通过可学习的注意力机制，自动确定最相关的尺度和空间位置以用于匹配。
通过基于显著性的融合层结合多尺度特征，以改善特征表示。
通过在中间层引入辅助分类损失，增强训练监督。

提出的方法

提出一种基于孪生网络的架构，包含多尺度流层，用于从输入图像的多个空间尺度提取特征。
引入基于显著性的学习融合层，通过学习通道级重要性权重，自适应地组合多尺度特征。
在中间层使用辅助分类损失，以加强多尺度特征学习的监督。
采用多分支网络设计，其中每个分支处理输入图像的不同尺度。
采用端到端训练，结合验证损失与分类损失，以联合优化特征学习与匹配过程。
利用特征拼接与融合策略，结合不同尺度的输出以实现最终匹配。

实验结果

研究问题

RQ1能否设计一种在多个空间尺度上学习特征的深度学习模型，使其优于单尺度 re-ID 模型？
RQ2模型如何自动确定用于行人匹配的最具判别性的尺度和空间位置？
RQ3与固定或平均融合相比，基于显著性的特征融合是否能提升 re-ID 性能？
RQ4中间层的辅助分类损失在多大程度上能提升多尺度特征学习？
RQ5所提出的多尺度架构在具有不同图像分辨率和条件的多样化 re-ID 基准上是否具有良好的泛化能力？

主要发现

MuDeep 在 CUHK01 数据集上达到 79.01% 的 rank-1 准确率，优于所有基线模型，包括 Inception A、Inception B 及其集成模型。
消融实验表明，若移除基于显著性的融合层或分类子网络，性能均会下降，完整模型表现最佳。
在 PRID-2011 数据集上，MuDeep 达到 65% 的 rank-1 准确率，显著优于大多数现有视频 re-ID 模型，且比表现第二好的方法高出 15 个百分点。
在 iLIDS-VID 上，MuDeep 达到 41% 的 rank-1 准确率，显著高于基线方法，包括 DDC（28%）和 VR（42%）。
消融实验确认，基于显著性的融合层与分类子网络均对性能有显著贡献，二者结合可实现最高准确率。
多分辨率实验表明，以较低分辨率进行训练会降低性能，且跨分辨率融合仅带来微小增益，表明最优分辨率选择并非简单问题，而是依赖于模型本身。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。