[论文解读] CR-GAN: Learning Complete Representations for Multi-view Generation
CR-GAN 引入一个两路径生成对抗网络,拥有生成路径和重建路径,用于学习完整的潜在表示,使从未见输入实现现实、身份保持的多视图生成,并通过使用未标记数据的自监督学习实现。
Generating multi-view images from a single-view input is an essential yet challenging problem. It has broad applications in vision, graphics, and robotics. Our study indicates that the widely-used generative adversarial network (GAN) may learn "incomplete" representations due to the single-pathway framework: an encoder-decoder network followed by a discriminator network. We propose CR-GAN to address this problem. In addition to the single reconstruction path, we introduce a generation sideway to maintain the completeness of the learned embedding space. The two learning pathways collaborate and compete in a parameter-sharing manner, yielding considerably improved generalization ability to "unseen" dataset. More importantly, the two-pathway framework makes it possible to combine both labeled and unlabeled data for self-supervised learning, which further enriches the embedding space for realistic generations. The experimental results prove that CR-GAN significantly outperforms state-of-the-art methods, especially when generating from "unseen" inputs in wild conditions.
研究动机与目标
- 在基于 GAN 的多视图生成中证明完整表示的必要性。
- 提出一个两路径 CR-GAN,以学习完整的潜在表示。
- 通过自监督训练实现对标注与未标注数据的学习。
- 展示在未知数据集和野外条件下的泛化改进。
提出的方法
- 具有共享生成器 G 的两路径架构。
- 生成路径:G(v, z) 从随机噪声 z 和视图标签 v 生成图像。
- 重建路径:E 将图像映射到潜在 z 和视图 v,以重构目标视图。
- 跨重建任务:E(x_i) 产生 z,G 使用带有不同视图 v_j 的 z 以重构 x_j。
- 对抗损失采用 WGAN-GP 风格项和视图一致性项(D_s, D_v)。
- 自监督学习阶段,其中未标注数据被 E 指派伪视图,并用于优化 E、G、D。
实验结果
研究问题
- RQ1两路径 GAN 能否学习覆盖整个潜在空间 Z 的潜在表示?
- RQ2与单路径模型相比,加入生成路径是否提高对未知或野外数据的泛化能力?
- RQ3是否可以通过自监督学习有效利用未标注数据来丰富嵌入空间并改善生成质量?
- RQ4CR-GAN 在多个视图上对抗挑战性数据集的身份保持表现如何?
主要发现
| 数据集 | DR-GAN | CR-GAN |
|---|---|---|
| Multi-PIE | 1.073±0.013 | 1.018±0.019 |
| CelebA | 1.281±0.007 | 1.214±0.009 |
| IJB-A | 1.295±0.008 | 1.217±0.010 |
- CR-GAN 在现有方法中表现更优,特别是在未见数据上(IJB-A)。
- 两路径训练产生更真实、细节丰富的图像,比单路径模型的伪影更少。
- 使用未标注数据的自监督学习丰富嵌入空间并提高真实感和身份保持。
- 与 DR-GAN 相比,CR-GAN 在嵌入空间中产生更紧凑的身份簇,t-SNE 可视化所示。
- 在身份相似性指标上,CR-GAN 在 Multi-PIE、CelebA、IJB-A 数据集上均取得比 DR-GAN 更低(更好)的分数。
- CR-GAN 能从随机噪声生成具有多样风格的多视图图像,避免单路径方法中观察到的模糊。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。