Skip to main content
QUICK REVIEW

[论文解读] Pose-Normalized Image Generation for Person Re-identification

Xuelin Qian, Yanwei Fu|arXiv (Cornell University)|Dec 6, 2017
Video Surveillance and Tracking Methods参考文献 46被引用 28
一句话总结

本文提出姿态归一化生成对抗网络(PN-GAN),一种条件生成对抗网络,可生成姿态归一化的行人图像,以缓解行人重识别中的姿态差异问题。通过为每张输入图像生成八个标准姿态,该方法能够训练出对姿态变化不敏感的特征,与原始特征互补,实现最先进性能,并可在无需微调的情况下实现零样本迁移至新数据集。

ABSTRACT

Person Re-identification (re-id) faces two major challenges: the lack of cross-view paired training data and learning discriminative identity-sensitive and view-invariant features in the presence of large pose variations. In this work, we address both problems by proposing a novel deep person image generation model for synthesizing realistic person images conditional on the pose. The model is based on a generative adversarial network (GAN) designed specifically for pose normalization in re-id, thus termed pose-normalization GAN (PN-GAN). With the synthesized images, we can learn a new type of deep re-id feature free of the influence of pose variations. We show that this feature is strong on its own and complementary to features learned with the original images. Importantly, under the transfer learning setting, we show that our model generalizes well to any new re-id dataset without the need for collecting any training data for model fine-tuning. The model thus has the potential to make re-id model truly scalable.

研究动机与目标

  • 为解决行人重识别中大规模姿态变化带来的特征判别性下降和模型泛化能力减弱的问题。
  • 克服现有深度重识别模型在每种摄像头视角下需要大量标注数据所导致的可扩展性和泛化能力限制。
  • 开发一种数据高效、可迁移的重识别框架,无需在新数据集上重新训练或微调模型。
  • 生成真实、身份一致的行人图像,处于标准姿态,以支持姿态不变特征学习。

提出的方法

  • 训练一种基于条件生成对抗网络的图像生成模型 PN-GAN,用于合成指定标准姿态的行人图像。
  • 给定一张输入图像和目标姿态(来自预定义的八个姿态之一),PN-GAN 生成在新姿态下真实且身份一致的图像。
  • 模型采用变自编码器正则化的生成对抗网络损失,以保留身份属性,同时将姿态与外观解耦。
  • 合成的图像用于训练姿态归一化的重识别模型,生成对姿态变化不敏感的特征。
  • 将原始图像和姿态归一化图像的特征进行拼接,形成最终的特征表示。
  • 该框架采用“即插即用”模式:训练完成后,无需额外数据收集或模型微调,即可泛化至新数据集。

实验结果

研究问题

  • RQ1姿态归一化图像生成是否能提升深度重识别特征对大规模姿态变化的鲁棒性?
  • RQ2在合成的姿态归一化图像上进行训练,是否能产生与仅使用原始图像相比更具互补性和判别性的特征?
  • RQ3在某一数据集(如 Market-1501)上训练的重识别模型,能否在无需微调的情况下有效迁移到新的未见数据集(如 CUHK01)?
  • RQ4使用多个标准姿态(八个)如何影响生成图像的质量和泛化能力,以及下游重识别性能?

主要发现

  • 在 CUHK01 数据集上,所提方法在迁移学习设置下达到 67.65% 的 Rank-1 准确率和 86.64% 的 Rank-5 准确率,优于 ResNet-50-A (TL) 基线模型。
  • 在 Market-1501 数据集上,该模型在迁移学习设置下达到 89.43% 的 Rank-1 准确率和 72.58% 的 mAP,展现出强大的泛化能力。
  • 与仅使用单一标准姿态相比,使用八个标准姿态将 Market-1501 上的 mAP 从 69.60% 提升至 72.58%,表明多姿态生成可增强模型鲁棒性。
  • 原始特征与姿态归一化特征的融合在所有基准测试中均带来一致的性能提升,证实了两种特征的互补性。
  • 该模型无需任何微调即可泛化至新数据集,在小型数据集(如 CUHK01)上也取得了具有竞争力的结果。
  • 可视化结果表明,PN-GAN 能有效消除遮挡(如自行车)的同时,保留关键身份属性(如衣物和颜色)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。