Skip to main content
QUICK REVIEW

[论文解读] Toward Multimodal Image-to-Image Translation

Jun-Yan Zhu, Richard Zhang|arXiv (Cornell University)|Nov 30, 2017
Generative Adversarial Networks and Image Synthesis参考文献 57被引用 739
一句话总结

本文提出 BicycleGAN,一系列多模态条件图像到图像翻译模型,通过在潜在编码与输出之间建立双向联系,产生多样且真实的结果,解决先前基于 GAN 的方法中的模式崩溃问题。

ABSTRACT

Many image-to-image translation problems are ambiguous, as a single input image may correspond to multiple possible outputs. In this work, we aim to model a \emph{distribution} of possible outputs in a conditional generative modeling setting. The ambiguity of the mapping is distilled in a low-dimensional latent vector, which can be randomly sampled at test time. A generator learns to map the given input, combined with this latent code, to the output. We explicitly encourage the connection between output and the latent code to be invertible. This helps prevent a many-to-one mapping from the latent code to the output during training, also known as the problem of mode collapse, and produces more diverse results. We explore several variants of this approach by employing different training objectives, network architectures, and methods of injecting the latent code. Our proposed method encourages bijective consistency between the latent encoding and output modes. We present a systematic comparison of our method and other variants on both perceptual realism and diversity.

研究动机与目标

  • 为模糊的图像-到-图像翻译任务建模一个可能输出的分布提供动机。
  • 开发一个低维潜在空间来捕捉输入中不呈现的输出模态。
  • 强制潜在编码与输出之间的双射一致性以缓解模式崩溃。
  • 探索并比较几种训练目标与架构,以最大化真实感和多样性。
  • 提供一个统一框架(BicycleGAN),将条件 VAE-GAN 与潜在回归器方法相结合。

提出的方法

  • 在 pix2pix 的基础上加入一个来自先验 p(z) 的低维潜在码 z,以生成多样化的输出 G(A, z)。
  • 引入并比较三种方法:cVAE-GAN(对 B 编码并带有 KL 正则化)、cLR-GAN(潜在回归器,强制从 G(A, z) 回推 z),以及将它们组合成 BicycleGAN。
  • 强制双向约束:B -> z -> G(A, z) 和 z -> G(A, z) -> E(G(A, z)),以确保单射映射和更丰富的模态覆盖。
  • 使用两个编码器(E CNN 或 E ResNet)和两个判别器(在不同尺度的两个 PatchGAN),以及一个 U-Net 生成器,在可用时使用最小二乘 GAN 损失和一个 L1 重建项进行训练。
  • 通过 add_to_input 或 add_to_all 将 z 注入生成器,以探索不同的集成策略。

实验结果

研究问题

  • RQ1我们能否对条件分布 p(B|A) 进行建模并采样,以生成对 A 保持忠实的多样化输出?
  • RQ2在潜在编码和输出之间强制双向一致性是否能在保持真实感的同时减少模式崩溃?
  • RQ3在标准多模态翻译任务中,cVAE-GAN、cLR-GAN 及其组合 (BicycleGAN) 在真实感和多样性方面的比较?
  • RQ4编码器架构和潜在码注入方法对重建与多样性的影响?
  • RQ5潜在码长度如何影响跨数据集的多样性和真实感?

主要发现

  • BicycleGAN 在真实感和多样性方面优于基线方法,并不如某些变体观察到的模式崩溃所困扰。
  • 通过 LPIPS 测量的多样性对于 cVAE-GAN、cVAE-GAN++、cLR-GAN 和 BicycleGAN 比基线更高,而真实感在混合目标下有所提升。
  • 仅使用 cLR-GAN 可能会导致严重的模式崩溃(约 15% 的输出相同),而完整的 BicycleGAN 能避免崩溃并获得最佳真实感。
  • 编码器的选择影响潜在编码质量;E ResNet 通常比 E CNN 提供更好的潜在重建,从而影响性能。
  • 两种潜在注入方法(add_to_input 与 add_to_all)表现相近,最终结果偏好 add_to_all。
  • 潜在码长度很重要;过小的 z 限制多样性,而过大的 z 可能妨碍采样;最佳长度取决于数据集。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。