Skip to main content
QUICK REVIEW

[论文解读] M2M-GAN: Many-to-Many Generative Adversarial Transfer Learning for Person Re-Identification

Wenqi Liang, Guangcong Wang|arXiv (Cornell University)|Nov 9, 2018
Video Surveillance and Tracking Methods参考文献 19被引用 25
一句话总结

本文提出 M2M-GAN,一种用于行人重识别的多对多生成对抗迁移学习框架,通过联合优化多个源域和目标相机子域之间的跨子域图像翻译,实现高效转换。通过将子域标签嵌入生成器,M2M-GAN 实现了统一的、参数高效的翻译,相比独立的 CycleGAN,性能更优且训练时间更短。

ABSTRACT

Cross-domain transfer learning (CDTL) is an extremely challenging task for the person re-identification (ReID). Given a source domain with annotations and a target domain without annotations, CDTL seeks an effective method to transfer the knowledge from the source domain to the target domain. However, such a simple two-domain transfer learning method is unavailable for the person ReID in that the source/target domain consists of several sub-domains, e.g., camera-based sub-domains. To address this intractable problem, we propose a novel Many-to-Many Generative Adversarial Transfer Learning method (M2M-GAN) that takes multiple source sub-domains and multiple target sub-domains into consideration and performs each sub-domain transferring mapping from the source domain to the target domain in a unified optimization process. The proposed method first translates the image styles of source sub-domains into that of target sub-domains, and then performs the supervised learning by using the transferred images and the corresponding annotations in source domain. As the gap is reduced, M2M-GAN achieves a promising result for the cross-domain person ReID. Experimental results on three benchmark datasets Market-1501, DukeMTMC-reID and MSMT17 show the effectiveness of our M2M-GAN.

研究动机与目标

  • 解决现有行人重识别中一对一跨域迁移学习的局限性,该方法未能考虑源域和目标域内多个基于相机的子域。
  • 通过建模多个相机之间的细粒度子域关系,缩小有标签源域与无标签目标域之间的域差距。
  • 开发一种参数高效且计算可扩展的多对多域自适应方法,避免训练 M×N 个独立的 CycleGAN。
  • 通过在监督训练中同时利用真实源图像和 GAN 生成的目标风格图像,提升行人重识别性能。
  • 通过共享参数和子域标签引导,实现所有源到目标子域映射的统一优化。

提出的方法

  • 将子域标签(源域的 l_s^i,目标域的 l_t^j)作为生成器的条件输入,使其能够实现从源子域 S_i 到目标子域 T_j 的图像翻译。
  • 设计一个统一的 GAN 框架,通过单个模型联合优化所有 M×N 个子域翻译映射,避免训练 M×N 个独立的 CycleGAN。
  • 使用循环一致性损失和对抗性损失,确保子域之间图像翻译的保真度和逼真的风格迁移。
  • 使用真实源图像(带标注)和 GAN 生成的虚假目标图像进行联合训练,结合监督学习与域自适应。
  • 在所有子域翻译任务中共享参数,与成对训练相比,显著减少了模型大小和训练时间。
  • 通过在对抗训练过程中利用子域间的共享结构,实现域不变特征学习。

实验结果

研究问题

  • RQ1当源域和目标域各自由多个基于相机的子域组成时,统一的生成对抗模型能否有效处理行人重识别中的多对多域自适应?
  • RQ2与标准 CycleGAN 相比,将子域身份信息整合到 GAN 生成器中,如何提升翻译质量和下游 ReID 性能?
  • RQ3用单个统一的 M2M-GAN 模型替代 M×N 个独立的 CycleGAN 模型时,模型复杂度与性能之间的权衡如何?
  • RQ4在跨域设置中,同时使用真实源图像和 GAN 生成的目标图像,在多大程度上能改善特征学习和 ReID 准确率?
  • RQ5该方法在大规模数据集(如拥有 15 个相机的 MSMT17)上是否能实现高效扩展?

主要发现

  • M2M-GAN 在三个基准数据集(Market-1501、DukeMTMC-reID 和 MSMT17)上达到最先进性能,优于所有对比方法在跨域行人重识别中的表现。
  • 当应用于 Market-1501(6 个相机)和 MSMT17(15 个相机)等数据集时,模型参数量减少至 M×N 个独立 CycleGAN 所需参数量的约 1/90。
  • 由于采用联合优化,训练时间显著缩短,使得该方法在 M×N GAN 单独训练变得计算不可行的大规模数据集上依然可行。
  • 在 D→MA 设置中,通过在监督训练中同时使用真实源图像和 GAN 生成的虚假目标图像,mAP 提升了 2.8 个百分点(从 26.8 提升至 29.6),证明真实数据在信息恢复中的优势。
  • 在 Market-1501 数据集上,M2M-GAN 在同时使用虚假和真实图像时,R1 达到 59.1%,mAP 达到 29.6%,展现出强大的泛化能力和鲁棒性。
  • 该方法在多种域组合中泛化良好,在所有测试的六组迁移组合中,始终优于手工设计特征方法和先前的跨域学习方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。