QUICK REVIEW

[论文解读] M2M-GAN: Many-to-Many Generative Adversarial Transfer Learning for Person Re-Identification

Wenqi Liang, Guangcong Wang|arXiv (Cornell University)|Nov 9, 2018

Video Surveillance and Tracking Methods参考文献 19被引用 25

一句话总结

本文提出 M2M-GAN，一种用于行人重识别的多对多生成对抗迁移学习框架，通过联合优化多个源域和目标相机子域之间的跨子域图像翻译，实现高效转换。通过将子域标签嵌入生成器，M2M-GAN 实现了统一的、参数高效的翻译，相比独立的 CycleGAN，性能更优且训练时间更短。

ABSTRACT

Cross-domain transfer learning (CDTL) is an extremely challenging task for the person re-identification (ReID). Given a source domain with annotations and a target domain without annotations, CDTL seeks an effective method to transfer the knowledge from the source domain to the target domain. However, such a simple two-domain transfer learning method is unavailable for the person ReID in that the source/target domain consists of several sub-domains, e.g., camera-based sub-domains. To address this intractable problem, we propose a novel Many-to-Many Generative Adversarial Transfer Learning method (M2M-GAN) that takes multiple source sub-domains and multiple target sub-domains into consideration and performs each sub-domain transferring mapping from the source domain to the target domain in a unified optimization process. The proposed method first translates the image styles of source sub-domains into that of target sub-domains, and then performs the supervised learning by using the transferred images and the corresponding annotations in source domain. As the gap is reduced, M2M-GAN achieves a promising result for the cross-domain person ReID. Experimental results on three benchmark datasets Market-1501, DukeMTMC-reID and MSMT17 show the effectiveness of our M2M-GAN.

研究动机与目标

解决现有行人重识别中一对一跨域迁移学习的局限性，该方法未能考虑源域和目标域内多个基于相机的子域。
通过建模多个相机之间的细粒度子域关系，缩小有标签源域与无标签目标域之间的域差距。
开发一种参数高效且计算可扩展的多对多域自适应方法，避免训练 M×N 个独立的 CycleGAN。
通过在监督训练中同时利用真实源图像和 GAN 生成的目标风格图像，提升行人重识别性能。
通过共享参数和子域标签引导，实现所有源到目标子域映射的统一优化。

提出的方法

将子域标签（源域的 l_s^i，目标域的 l_t^j）作为生成器的条件输入，使其能够实现从源子域 S_i 到目标子域 T_j 的图像翻译。
设计一个统一的 GAN 框架，通过单个模型联合优化所有 M×N 个子域翻译映射，避免训练 M×N 个独立的 CycleGAN。
使用循环一致性损失和对抗性损失，确保子域之间图像翻译的保真度和逼真的风格迁移。
使用真实源图像（带标注）和 GAN 生成的虚假目标图像进行联合训练，结合监督学习与域自适应。
在所有子域翻译任务中共享参数，与成对训练相比，显著减少了模型大小和训练时间。
通过在对抗训练过程中利用子域间的共享结构，实现域不变特征学习。

实验结果

研究问题

RQ1当源域和目标域各自由多个基于相机的子域组成时，统一的生成对抗模型能否有效处理行人重识别中的多对多域自适应？
RQ2与标准 CycleGAN 相比，将子域身份信息整合到 GAN 生成器中，如何提升翻译质量和下游 ReID 性能？
RQ3用单个统一的 M2M-GAN 模型替代 M×N 个独立的 CycleGAN 模型时，模型复杂度与性能之间的权衡如何？
RQ4在跨域设置中，同时使用真实源图像和 GAN 生成的目标图像，在多大程度上能改善特征学习和 ReID 准确率？
RQ5该方法在大规模数据集（如拥有 15 个相机的 MSMT17）上是否能实现高效扩展？

主要发现

M2M-GAN 在三个基准数据集（Market-1501、DukeMTMC-reID 和 MSMT17）上达到最先进性能，优于所有对比方法在跨域行人重识别中的表现。
当应用于 Market-1501（6 个相机）和 MSMT17（15 个相机）等数据集时，模型参数量减少至 M×N 个独立 CycleGAN 所需参数量的约 1/90。
由于采用联合优化，训练时间显著缩短，使得该方法在 M×N GAN 单独训练变得计算不可行的大规模数据集上依然可行。
在 D→MA 设置中，通过在监督训练中同时使用真实源图像和 GAN 生成的虚假目标图像，mAP 提升了 2.8 个百分点（从 26.8 提升至 29.6），证明真实数据在信息恢复中的优势。
在 Market-1501 数据集上，M2M-GAN 在同时使用虚假和真实图像时，R1 达到 59.1%，mAP 达到 29.6%，展现出强大的泛化能力和鲁棒性。
该方法在多种域组合中泛化良好，在所有测试的六组迁移组合中，始终优于手工设计特征方法和先前的跨域学习方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。