QUICK REVIEW

[论文解读] Pose-driven Deep Convolutional Model for Person Re-identification

Chi Su, Jianing Li|arXiv (Cornell University)|Sep 25, 2017

Video Surveillance and Tracking Methods参考文献 32被引用 38

一句话总结

该论文提出了一种姿态驱动的深度卷积（PDC）模型用于行人重识别，通过特征嵌入子网络（FEN）对全局和局部人体部位进行姿态归一化，利用人体姿态信息学习鲁棒的、姿态不变的特征。特征加权子网络（FWN）自适应地融合全局与局部特征，在三个基准数据集上实现了最先进性能，包括在Market-1501上达到88.70%的rank-1准确率，在VIPeR上达到51.27%。

ABSTRACT

Feature extraction and matching are two crucial components in person Re-Identification (ReID). The large pose deformations and the complex view variations exhibited by the captured person images significantly increase the difficulty of learning and matching of the features from person images. To overcome these difficulties, in this work we propose a Pose-driven Deep Convolutional (PDC) model to learn improved feature extraction and matching models from end to end. Our deep architecture explicitly leverages the human part cues to alleviate the pose variations and learn robust feature representations from both the global image and different local parts. To match the features from global human body and local body parts, a pose driven feature weighting sub-network is further designed to learn adaptive feature fusions. Extensive experimental analyses and results on three popular datasets demonstrate significant performance improvements of our model over all published state-of-the-art methods.

研究动机与目标

解决行人重识别（ReID）中因大姿态变化和视角差异导致的特征学习与匹配性能下降问题。
克服现有深度学习ReID方法中手工设计特征与非端到端训练的局限性。
利用人体部位线索与姿态估计提升特征表示学习能力。
设计一种端到端可训练的架构，联合优化全局与局部特征学习及姿态归一化。
开发一种自适应特征融合机制，通过加权判别性特征提升相似度度量性能。

提出的方法

提出特征嵌入子网络（FEN），检测14个人体关节点，并通过姿态变换网络（PTN）自动裁剪并归一化局部人体部位。
对局部人体部位应用仿射变换，将其对齐至规范化的、姿态不变的空间，以提升特征嵌入质量。
使用全图的软最大损失（Softmax Loss）和行人ID标签训练全局特征。
引入具有一个非线性全连接层的特征加权子网络（FWN），学习全局与局部特征的自适应融合权重。
通过全局与局部特征学习及特征融合的联合优化，端到端训练整个PDC模型。
采用双流架构，其中FEN同时处理全局与局部特征，FWN则基于输入姿态与外观动态学习融合权重。

实验结果

研究问题

RQ1显式建模人体部位与姿态变化是否能提升行人重识别中的特征鲁棒性？
RQ2对局部人体部位进行姿态归一化如何影响特征表示质量与ReID准确率？
RQ3使用学习得到的加权机制进行自适应特征融合，是否优于固定加权或简单平均融合策略？
RQ4姿态驱动架构的端到端训练是否优于使用预处理或人工裁剪部件的方法？
RQ5特征加权网络的层数如何影响性能与泛化能力？

主要发现

PDC模型在Market-1501上达到88.70%的rank-1准确率，优于所有已发表的SOTA方法。
在CUHK03数据集上，模型在标注协议下达到88.18%的rank-1准确率，在检测协议下达到88.70%。
在VIPeR数据集上，模型达到51.27%的rank-1准确率，优于大多数基线方法，仅次于使用更大训练集的Spindle方法，排名第二。
具有一个非线性层的FWN（W1）表现最佳，优于无非线性（W0）和更深的变体（W2–W4），后者性能下降。
定性分析表明，FWN能有效抑制噪声特征，并增强融合表示中的判别性特征。
消融实验确认，姿态归一化（通过FEN实现）与自适应融合（通过FWN实现）均对性能提升至关重要，二者结合可获得最强结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。