[论文解读] Learning Deep Context-aware Features over Body and Latent Parts for Person Re-identification
提出 MSCAN,用于多尺度上下文感知特征,并使用 Spatial Transformer Networks 学习潜在行人部位,与全身特征融合,在 Market1501、CUHK03 和 MARS 数据集上达到最先进的人体再识别(ReID)性能。
Person Re-identification (ReID) is to identify the same person across different cameras. It is a challenging task due to the large variations in person pose, occlusion, background clutter, etc How to extract powerful features is a fundamental problem in ReID and is still an open problem today. In this paper, we design a Multi-Scale Context-Aware Network (MSCAN) to learn powerful features over full body and body parts, which can well capture the local context knowledge by stacking multi-scale convolutions in each layer. Moreover, instead of using predefined rigid parts, we propose to learn and localize deformable pedestrian parts using Spatial Transformer Networks (STN) with novel spatial constraints. The learned body parts can release some difficulties, eg pose variations and background clutters, in part-based representation. Finally, we integrate the representation learning processes of full body and body parts into a unified framework for person ReID through multi-class person identification tasks. Extensive evaluations on current challenging large-scale person ReID datasets, including the image-based Market1501, CUHK03 and sequence-based MARS datasets, show that the proposed method achieves the state-of-the-art results.
研究动机与目标
- 使用深度网络学习稳健的全身与身体部位表示,以进行人 ReID。
- 捕捉多尺度上下文以保留细粒度线索(例如太阳镜、鞋子)。
- 在新颖约束下,使用 Spatial Transformer Networks 局部化信息丰富的潜在行人部位。
- 在一个统一的 IDE-基框架中融合全局与局部特征,并使用分类损失进行优化。
提出的方法
- 提出具备膨胀卷积的多尺度上下文感知网络(MSCAN),在每一层学习多尺度上下文,并拼接来自多个卷核的特征。
- 使用 Spatial Transformer Networks (STN) 学习并定位潜在身体部位,提出三项约束(中心、数值范围、图像内聚焦)以防止崩塌和背景干扰。
- 通过 MSCAN 提取全局全身特征及 128-d 表示;为三个潜在部位提取部件特征及 64/128-d 表示,然后融合成 256-d 的最终表示。
- 用 softmax(身份分类)损失和用于部位定位的定位损失(Lloc)来训练网络,组合为 L = Lcls + λLloc。
实验结果
研究问题
- RQ1多尺度上下文和可学习的潜在部位是否能提升 ReID 的判别能力,超过刚性部位或全局方法?
- RQ2学习得到的潜在部位是否为全身表示提供互补信息?
- RQ3所提方法在大规模数据集(Market1501、CUHK03、MARS)以及跨数据集设置中的表现如何?
主要发现
- 全身与学习得到的潜在身体部位的融合在 Market1501 上获得更优的 Rank-1 和 mAP(例如 Our-Fusion 在单查询下为 80.31 Rank-1 和 57.53 mAP;在多查询下为 86.79 Rank-1 和 66.70 mAP)。
- STN 学习的潜在部位在 Market1501 上优于刚性部位(潜在部件:单查询 Rank-1 76.25,mAP 53.33;多查询 84.12,62.90)。
- 强制定位约束(Lloc)显著提升部件基础的性能(例如 Lcls vs Lcls+Lloc:Market1501 单查询 67.22→76.25 Rank-1)。
- 具有三个膨胀比(k=3)的 MSCAN 提供最佳的单模型性能,超过 k=3 的增益逐渐减小。
- 与若干基线和先前的深度学习方法相比,该方法在 Market1501、CUHK03 和 MARS 上获得了最先进的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。