Skip to main content
QUICK REVIEW

[论文解读] Unpaired Image-to-Image Translation with Domain Supervision.

Jianxin Lin, Sen Liu|arXiv (Cornell University)|Feb 11, 2019
Generative Adversarial Networks and Image Synthesis参考文献 23被引用 2
一句话总结

本文提出域监督生成对抗网络(DosGAN),一种新颖的无配对图像到图像翻译框架,通过微调分类器以提取特定域特征,显式利用域信息作为监督信号。与依赖解缠码或独立生成器的先前方法不同,DosGAN结合特定域与非特定域特征以提升翻译性能,在面部属性、身份和季节翻译任务上达到最先进水平,并支持零样本域迁移及任意图像对之间的条件化翻译。

ABSTRACT

Image-to-image translation tasks have been widely investigated with Generative Adversarial Networks (GANs). However, existing approaches are mostly designed in an unsupervised manner while little attention has been paid to domain information within unpaired data. In this paper, we treat domain information as explicit supervision and design an unpaired image-to-image translation framework, Domain-supervised GAN (DosGAN), which takes the first step towards the exploration of explicit domain supervision. In contrast to representing domain characteristics using different generators or domain codes, we pre-train a classification network to explicitly classify the domain of an image. After pre-training, this network is used to extract the domain-specific features of each image. Such features, together with the domain-independent features extracted by another encoder (shared across different domains), are used to generate image in target domain. Extensive experiments on multiple facial attribute translation, multiple identity translation, multiple season translation and conditional edges-to-shoes/handbags demonstrate the effectiveness of our method. In addition, we can transfer the domain-specific feature extractor obtained on the Facescrub dataset with domain supervision information to unseen domains, such as faces in the CelebA dataset. We also succeed in achieving conditional translation with any two images in CelebA, while previous models like StarGAN cannot handle this task.

研究动机与目标

  • 解决现有无配对图像到图像翻译方法在无配对数据中忽略显式域信息的局限性。
  • 探索利用域分类作为显式监督以提升翻译质量与解缠程度的潜力。
  • 通过将预训练的域特征提取器迁移到未见域,实现零样本域迁移。
  • 支持数据集中任意两幅图像之间的条件化翻译,这是StarGAN等模型所不支持的能力。

提出的方法

  • 在无配对数据上预训练分类网络,以预测每幅图像的域,使用数据集中提供的域标签。
  • 从预训练分类器的最后层提取每幅输入图像的特定域特征。
  • 使用共享编码器从同一图像中提取非特定域特征。
  • 将特定域与非特定域特征结合,作为生成器网络的输入以实现图像翻译。
  • 使用对抗损失和循环一致性损失训练生成器,以确保翻译结果的真实感与一致性。
  • 通过将生成器同时基于参考图像的特定域与非特定域特征进行条件化,实现条件化翻译。

实验结果

研究问题

  • RQ1与无监督方法相比,显式域监督是否能提升无配对图像到图像翻译的性能?
  • RQ2预训练的域分类器是否能有效迁移到未见域,实现零样本域适应?
  • RQ3所提出的框架是否能实现数据集中任意两幅图像之间的条件化翻译,而不同于StarGAN等模型?
  • RQ4特定域与非特定域特征的解缠是否能带来更好的解缠效果与翻译质量?

主要发现

  • 与现有无配对GAN相比,DosGAN在多个面部属性、身份和季节翻译基准上表现更优。
  • 预训练的域特征提取器能有效泛化到未见域,例如在无需微调的情况下从Facescrub迁移到CelebA。
  • DosGAN支持CelebA中任意两幅图像之间的条件化翻译,而StarGAN不支持此功能。
  • 通过显式监督,该方法在特定域与非特定域内容的解缠方面表现更优。
  • 定量结果表明,FID和用户评分在多个翻译任务中均有显著提升。
  • 消融研究证实,显式域监督有助于提升翻译保真度与解缠效果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。