[论文解读] Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
CycleGAN 通过使用对抗性损失和循环一致性,在未成对的图像域之间学习映射,使在 Monet 画作和照片等域之间无需配对数据即可进行翻译。
Image-to-image translation is a class of vision and graphics problems where the goal is to learn the mapping between an input image and an output image using a training set of aligned image pairs. However, for many tasks, paired training data will not be available. We present an approach for learning to translate an image from a source domain $X$ to a target domain $Y$ in the absence of paired examples. Our goal is to learn a mapping $G: X ightarrow Y$ such that the distribution of images from $G(X)$ is indistinguishable from the distribution $Y$ using an adversarial loss. Because this mapping is highly under-constrained, we couple it with an inverse mapping $F: Y ightarrow X$ and introduce a cycle consistency loss to push $F(G(X)) \approx X$ (and vice versa). Qualitative results are presented on several tasks where paired training data does not exist, including collection style transfer, object transfiguration, season transfer, photo enhancement, etc. Quantitative comparisons against several prior methods demonstrate the superiority of our approach.
研究动机与目标
- 通过在两个域 X 和 Y 之间学习映射,解决图像到图像翻译缺乏配对训练数据的问题。
- 施加循环一致性以正则化映射 G: X->Y 和 F: Y->X,使得 F(G(X))≈X 且 G(F(Y))≈Y。
- 利用对抗损失将翻译后的图像与目标域分布对齐,同时通过循环损失保持结构。
- 展示在多种任务中的多功能性,如 collection style transfer、object transfiguration、season transfer 和 photo enhancement。
提出的方法
- 使用两个生成器 G:X->Y 和 F:Y->X,配以相应的判别器 D_Y 和 D_X。
- 应用对抗损失使 G(X) 与 Y 区分度低、F(Y) 与 X 区分度低。
- 引入循环保一致性损失 L_cyc,最小化 ||F(G(x)) - x||_1 和 ||G(F(y)) - y||_1。
- 合并为完整目标 L = L_GAN(G,D_Y,X,Y) + L_GAN(F,D_X,Y,X) + λ L_cyc(G,F) 其中 λ=10。
- 采用 Johnson 等人的生成器架构选择、PatchGAN 判别器和实例归一化。
- 通过最小二乘 GAN 损失和一个历史生成图像用于训练判别器来稳定训练。
实验结果
研究问题
- RQ1在没有配对示例的情况下,未成对的图像集合是否可以跨域翻译,同时保留有意义的内容?
- RQ2循环一致性是否足以正则化约束不足的翻译问题,以产出高质量、真实的映射?
- RQ3CycleGAN 的翻译在多种任务中与监督基线以及其他未成对方法相比如何?
- RQ4对翻译质量而言,对抗性项和循环一致性项的影响是什么?
主要发现
- CycleGAN 在未成对数据上实现了引人注目的翻译,通常在没有配对训练的情况下也能达到受监督的 pix2pix 质量。
- 在地图和航空照片上,CycleGAN 在 256×256 分辨率下约在 26.8% 和 23.2% 的试验中让人类评估者分辨真实与伪造。
- 在 Cityscapes 任务中,CycleGAN 在 labels-to-photo 和 photo-to-label 指标上优于若干基线,接近或超过一些弱监督基线。
- 消融研究表明去除 GAN 损失或循环一致性损失都会降低性能,而完整的 CycleGAN 提供最佳结果。
- 该方法可推广到多种应用,包括 collection style transfer、object transfiguration、season transfer 和 photo enhancement。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。