[论文解读] Image-Image Domain Adaptation with Preserved Self-Similarity and Domain-Dissimilarity for Person Re-identification
本文提出 SPGAN,即相似性保持的图像到图像翻译框架,结合 CycleGAN,通过在保持身份信息的同时翻译源域图像并确保翻译图像与目标 ID 不同,从而通过翻译源域图像来创建目标域带标签的数据,从而实现对人员再识别的无监督域自适应的改进。
Person re-identification (re-ID) models trained on one domain often fail to generalize well to another. In our attempt, we present a "learning via translation" framework. In the baseline, we translate the labeled images from source to target domain in an unsupervised manner. We then train re-ID models with the translated images by supervised methods. Yet, being an essential part of this framework, unsupervised image-image translation suffers from the information loss of source-domain labels during translation. Our motivation is two-fold. First, for each image, the discriminative cues contained in its ID label should be maintained after translation. Second, given the fact that two domains have entirely different persons, a translated image should be dissimilar to any of the target IDs. To this end, we propose to preserve two types of unsupervised similarities, 1) self-similarity of an image before and after translation, and 2) domain-dissimilarity of a translated source image and a target image. Both constraints are implemented in the similarity preserving generative adversarial network (SPGAN) which consists of an Siamese network and a CycleGAN. Through domain adaptation experiment, we show that images generated by SPGAN are more suitable for domain adaptation and yield consistent and competitive re-ID accuracy on two large-scale datasets.
研究动机与目标
- 解决人员再识别中带标签的源数据与未标注的目标数据集之间的领域差异。
- 在图像到图像翻译过程中保持潜在的身份信息,以便在目标域上进行有效的监督学习。
- 引入自相似性和域不相似性约束,以在跨域间保持ID一致性。
- 表明 SPGAN 相较于标准 CycleGAN 能产生更适合域自适应的翻译样本。
- 在大规模数据集 Market-1501 和 DukeMTMC-reID 上提供改进的 re-ID 准确性作为实证证据。
提出的方法
- 将 CycleGAN 与 Siamese 网络(SiaNet)结合,以强制实现身份保持的翻译。
- 使用对比损失将翻译后的图像对拉向它们的源端对应物(自相似性),并将它们推离任何目标域图像(域不相似性)。
- 将正样本对定义为翻译后的源图像及其原始源图像,以及翻译后的目标图像及其原始目标;将负样本对定义为翻译后的图像与来自另一域的图像。
- 整合整体 SPGAN 目标 L_sp = L_Tadv + L_Sadv + λ1 L_cyc + λ2 L_ide + λ3 L_con。
- 应用目标域身份约束 L_ide 以对翻译进行正则化并保持颜色/内容线索。
- 在测试时对特征采用局部最大池化 (LMP) 策略,以增强 re-ID 描述符的鲁棒性。
实验结果
研究问题
- RQ1无监督的图像-图像翻译是否能够生成在目标域保留源域身份的样本,以用于在目标域进行监督学习?
- RQ2自相似性和域不相似性约束是否提高翻译图像在人员再识别中的域自适应质量?
- RQ3SPGAN 与 CycleGAN 与直接迁移在跨域 re-ID 表现上有何比较?
- RQ4对比损失边距 m 以及 L_con、L_ide 和 L_cyc 的权重对 re-ID 精度有何影响?
- RQ5局部最大池化(LMP)是否进一步提升域自适应 re-ID 的性能?
主要发现
| 方法 | DukeMTMC-reID rank-1 | DukeMTMC-reID rank-5 | DukeMTMC-reID rank-10 | DukeMTMC-reID rank-20 | DukeMTMC-reID mAP | Market-1501 rank-1 | Market-1501 rank-5 | Market-1501 rank-10 | Market-1501 rank-20 | Market-1501 mAP |
|---|---|---|---|---|---|---|---|---|---|---|
| Supervised Learning | 66.7 | 79.1 | 83.8 | 88.7 | 46.3 | 75.8 | 89.6 | 92.8 | 95.4 | 52.2 |
| Direct Transfer | 33.1 | 49.3 | 55.6 | 61.9 | 16.7 | 43.1 | 60.8 | 68.1 | 74.7 | 17.0 |
| CycleGAN (basel.) | 38.1 | 54.4 | 60.5 | 65.9 | 19.6 | 45.6 | 63.8 | 71.3 | 77.8 | 19.1 |
| CycleGAN (basel.) + L_ide | 38.5 | 54.6 | 60.8 | 66.6 | 19.9 | 48.1 | 66.2 | 72.7 | 80.1 | 20.7 |
| SPGAN (m=0) | 37.7 | 53.1 | 59.5 | 65.6 | 20.0 | 49.2 | 66.9 | 74.0 | 80.0 | 20.5 |
| SPGAN (m=1) | 39.5 | 55.0 | 61.4 | 67.3 | 21.0 | 48.7 | 65.7 | 73.0 | 79.3 | 21.0 |
| SPGAN (m=2) | 41.1 | 56.6 | 63.0 | 69.6 | 22.3 | 51.5 | 70.1 | 76.8 | 82.4 | 22.8 |
| SPGAN (m=2) + LMP | 46.9 | 62.6 | 68.5 | 74.0 | 26.4 | 58.1 | 76.0 | 82.7 | 87.9 | 26.9 |
- SPGAN 在 DukeMTMC-reID 和 Market-1501 上持续优于 CycleGAN 基线的跨域 re-ID 精度。
- 当 m = 2 时,SPGAN 在 DukeMTMC-reID 的 rank-1 提升至 41.1%,Market-1501 为 51.5%(在 LMP 之前)。
- SPGAN,m=2 配合 LMP,在 DukeMTMC-reID 上实现 rank-1 46.9% 和 mAP 26.4%;在 Market-1501 上为 rank-1 58.1% 和 mAP 26.9%。
- SPGAN+LMP 在多个指标(rank-1、rank-5、rank-10、rank-20、mAP)上均优于直接迁移和 CycleGAN 变体。
- SPGAN 在单查询和多查询设置下,相对于最先进的无监督方法,在 Market-1501 和 DukeMTMC-reID 展现出竞争力或优越性。
- 结果证实,在翻译过程中保持身份信息可为有监督的 re-ID 训练提供更好的域自适应样本。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。