[论文解读] Deep-Person: Learning Discriminative Deep Features for Person Re-Identification
Deep-Person 引入一个端到端的三分支框架,结合基于 LSTM 的部位序列建模、全局特征和基于三元组的排序学习,以学习对 Re-ID 高度具辨识性的个体描述符。
Recently, many methods of person re-identification (Re-ID) rely on part-based feature representation to learn a discriminative pedestrian descriptor. However, the spatial context between these parts is ignored for the independent extractor to each separate part. In this paper, we propose to apply Long Short-Term Memory (LSTM) in an end-to-end way to model the pedestrian, seen as a sequence of body parts from head to foot. Integrating the contextual information strengthens the discriminative ability of local representation. We also leverage the complementary information between local and global feature. Furthermore, we integrate both identification task and ranking task in one network, where a discriminative embedding and a similarity measurement are learned concurrently. This results in a novel three-branch framework named Deep-Person, which learns highly discriminative features for person Re-ID. Experimental results demonstrate that Deep-Person outperforms the state-of-the-art methods by a large margin on three challenging datasets including Market-1501, CUHK03, and DukeMTMC-reID. Specifically, combining with a re-ranking approach, we achieve a 90.84% mAP on Market-1501 under single query setting.
研究动机与目标
- 在边界框不准确、遮挡和背景干扰下,推动稳健的行人 Re-ID 特征学习。
- 将行人建模为身体部位序列,以捕捉上下文关系。
- 利用全局全身表示和局部基于部位的特征,获取互为补充的信息。
- 在统一的端到端网络中整合识别(Softmax)和排序(triplet loss)目标。
提出的方法
- 从 ResNet-50 主干网络提取特征,不使用最终的全局池化层。
- 通过在宽度方向进行池化形成部位序列,然后用两层双向 LSTM 处理,以建模身体部位之间的空间上下文。
- 将基于 LSTM 的部位表示与通过全局平均池化和 Softmax 损失学习得到的全局表示相结合。
- 新增第三分支,使用带 PK 采样的三元组损失进行度量学习,以学习鲁棒的相似度度量。
- 使用三种损失函数联合训练网络:用于排序的三元组损失,以及用于部位特征和全局特征的两个 Softmax 识别损失。
实验结果
研究问题
- RQ1将行人建模为由身体部位组成的序列并用 LSTM 是否能够在保持对全身对齐的同时提升局部特征的辨识度?
- RQ2全局表示与基于局部(基于 LSTM 的)表示的结合是否能够为 Re-ID 提供互补的优势?
- RQ3在单一网络中集成识别与排序目标是否能提升对未见身份的描述符?
- RQ4相较于市场数据集 Market-1501、CUHK03、DukeMTMC-reID,Deep-Person 的表现如何?
主要发现
- 提出的基于 LSTM 的部位序列在辨识力方面优于非序列部位模型。
- 全局表示与部位表示提供互补信息,提升性能。
- 三分支的 Deep-Person 框架在 Market-1501、CUHK03 和 DukeMTMC-reID 数据集上,在单查询和多查询设置下均超越现有方法。
- 端到端训练,结合识别与排序目标,产生适用于检索的鲁棒行人描述符。
- 消融研究表明,加入基于 LSTM 的部位可在 mAP 和 rank-1 上带来可测量的提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。