[论文解读] Learning to Discover Cross-Domain Relations with Generative Adversarial Networks
DiscoGAN 从未配对数据中学习跨域关系,通过联合训练两个 GAN 在两个方向上将域映射,从而实现双向图像翻译,而无需显式的成对标签。它减少模式崩溃并发现保持关键属性的同时传递风格的双射映射。
While humans easily recognize relations between data from different domains without any supervision, learning to automatically discover them is in general very challenging and needs many ground-truth pairs that illustrate the relations. To avoid costly pairing, we address the task of discovering cross-domain relations given unpaired data. We propose a method based on generative adversarial networks that learns to discover relations between different domains (DiscoGAN). Using the discovered relations, our proposed network successfully transfers style from one domain to another while preserving key attributes such as orientation and face identity. Source code for official implementation is publicly available https://github.com/SKTBrain/DiscoGAN
研究动机与目标
- 说明在没有代价高昂的成对数据的情况下寻找跨域关系的必要性。
- 提出一种基于 GAN 的方法,在两个未标注的图像域之间发现关系。
- 实现双向映射,以确保域之间的一一对应。
- 证明所学习的关系在传递风格的同时保留身份/属性。
提出的方法
- 将跨域关系定义为两个域之间的双射映射。
- 将两个 GAN 连接,使每个域映射到对方再映射回来,强制重建损失。
- 使用两个重建损失,每个域一个,以促进双射。
- 并行训练两个判别器,以判断每个域中的真实感。
- 优化一个综合的生成器损失,包含两个方向的 GAN 与重建项。
- 应用具有 64x64x3 输出的编码器-解码器生成器,并采用标准的 GAN 训练程序。
实验结果
研究问题
- RQ1基于 GAN 的框架是否能够从未成对数据中发现有意义的跨域关系?
- RQ2强制双向重建是否能防止模式崩溃并产生双射映射?
- RQ3所学习的关系是否能够在跨越多样域的情况下实现忠实的图像到图像翻译?
- RQ4翻译在改变目标属性的同时,是否保留非目标属性(身份、方向、背景)?
主要发现
- DiscoGAN 在没有成对数据的情况下学习域之间的双射映射。
- 该模型相较于标准 GANs 和仅有重建的 GANs,减少了模式崩溃。
- DiscoGAN 在诸如人脸、汽车、椅子、边缘和照片等域之间实现了双向翻译。
- 翻译在转移风格的同时保留关键属性,已在多项真实域任务中证明。
- 重复翻译保持一致,表明跨域关系稳定。
- 定性结果显示具有属性保留的有意义的跨域风格转移。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。