Skip to main content
QUICK REVIEW

[论文解读] Exemplar Guided Unsupervised Image-to-Image Translation with Semantic Consistency

Liqian Ma, Xu Jia|arXiv (Cornell University)|May 28, 2018
Generative Adversarial Networks and Image Synthesis被引用 59
一句话总结

EGSC-IT 通过使用特征掩码实现语义一致性的多模态、示例引导的无监督图像到图像转换,并使用 AdaIN 进行风格迁移,产生多样且语义连贯的结果。

ABSTRACT

Image-to-image translation has recently received significant attention due to advances in deep learning. Most works focus on learning either a one-to-one mapping in an unsupervised way or a many-to-many mapping in a supervised way. However, a more practical setting is many-to-many mapping in an unsupervised way, which is harder due to the lack of supervision and the complex inner- and cross-domain variations. To alleviate these issues, we propose the Exemplar Guided & Semantically Consistent Image-to-image Translation (EGSC-IT) network which conditions the translation process on an exemplar image in the target domain. We assume that an image comprises of a content component which is shared across domains, and a style component specific to each domain. Under the guidance of an exemplar from the target domain we apply Adaptive Instance Normalization to the shared content component, which allows us to transfer the style information of the target domain to the source domain. To avoid semantic inconsistencies during translation that naturally appear due to the large inner- and cross-domain variations, we introduce the concept of feature masks that provide coarse semantic guidance without requiring the use of any semantic labels. Experimental results on various datasets show that EGSC-IT does not only translate the source image to diverse instances in the target domain, but also preserves the semantic consistency during the process.

研究动机与目标

  • 在没有成对数据的情况下,推动多模态图像到图像转换。
  • 开发一个示例引导的框架,在保留内容语义的同时转移目标域的风格。
  • 引入特征掩码,在没有语义标签的情况下提供粗粒度的语义引导。
  • 利用 AdaIN 将目标域风格注入到共享的内容表示中。
  • 展示对模式崩溃的鲁棒性,并在不同数据集上评估语义一致性。

提出的方法

  • 将图像分解为域共享的内容分量和域特定的风格分量。
  • 共享权重以学习跨域的内容公共潜在空间(受 UNIT 启发)。
  • 从目标域示例中计算 AdaIN 仿射参数,通过 AdaIN 将风格转移到共享内容。
  • 引入特征掩码 m_A 和 m_B,以频谱方式解耦语义区域,在无标签的情况下保持语义一致性。
  • 应用感知损失(内容和风格)以及 GAN / 循环损失来训练 VAE-GAN 框架。
  • 分阶段训练网络,先预训练特征掩码和 AdaIN 网络,然后在多种损失项下进行联合优化。

实验结果

研究问题

  • RQ1来自目标域的示例是否可以引导无监督 I2I 转换,以产生多样且风格受控的输出?
  • RQ2特征掩码是否能够在没有真实语义标签的情况下实现语义一致的翻译?
  • RQ3在保持语义结构的无监督设置中,多模态翻译是否可行?
  • RQ4在多样性与语义保留方面,示例引导的 AdaIN 方法与现有无监督 I2I 方法相比如何?

主要发现

  • EGSC-IT 产出以示例为条件的多模态翻译,使得可以转移到不同的目标域风格。
  • 特征掩码通过在基于 AdaIN 的风格迁移过程中大致解耦语义区域,帮助保持语义一致性。
  • 消融实验显示 AdaIN 能减少模式崩溃,感知损失提升语义保真度;去除特征掩码或 AdaIN 将降低结果。
  • 在基于 MNIST 的任务中,EGSC-IT 的 SSIM 高于 CycleGAN、UNIT、MUNIT 以及不含掩码/AdaIN/感知损失的变体。
  • 在街景翻译(GTA5 到 BDD)中,翻译后的图像提升了下游语义分割性能(mIoU 相对于参考值报告)。
  • 定性结果显示,EGSC-IT 处理较大域变化(如白天/夜晚)优于基线,产生语义连贯的风格迁移。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。