Skip to main content
QUICK REVIEW

[论文解读] Unsupervised Cross-Domain Image Generation

Yaniv Taigman, Adam Polyak|arXiv (Cornell University)|Nov 7, 2016
Generative Adversarial Networks and Image Synthesis参考文献 18被引用 428
一句话总结

本文提出领域传输网络(DTN),一种无监督的方法,通过将学习得到的 g 与固定的 f 组合,将样本 S 映射到目标域 T,采用多类 GAN 损失、f-恒等性和自身份正则化,在数字和人脸上演示出具有说服力的跨域图像,同时保持身份信息。

ABSTRACT

We study the problem of transferring a sample in one domain to an analog sample in another domain. Given two related domains, S and T, we would like to learn a generative function G that maps an input sample from S to the domain T, such that the output of a given function f, which accepts inputs in either domains, would remain unchanged. Other than the function f, the training data is unsupervised and consist of a set of samples from each domain. The Domain Transfer Network (DTN) we present employs a compound loss function that includes a multiclass GAN loss, an f-constancy component, and a regularizing component that encourages G to map samples from T to themselves. We apply our method to visual domains including digits and face images and demonstrate its ability to generate convincing novel images of previously unseen entities, while preserving their identity.

研究动机与目标

  • 开发一种从源域 S 将样本转移到相关目标域 T 的方法,而无需监督对儿。
  • 确保目标域输出保留由给定网络 f 编码的功能身份。
  • 促进一种将可学习的 g 与固定表示 f 组合的架构设计,以聚焦于与 f 相关的特征。
  • 在数字和人脸到表情符号的转换上演示该方法,并分析其组成部分及局限性。

提出的方法

  • 使用两个部分的生成器 G = g ∘ f,其中 f 是固定的特征提取器,g 将 f(x) 映射到目标域表示。
  • 以多类 GAN 损失进行训练,在真实目标样本与来自 S 和 T 的生成样本之间进行判别。
  • 添加一个 f-恒等损失,最小化 ||f(x) − f(G(x))||,其中 x 属于 S。
  • 包含一个目标身份正则化项 L_TID,鼓励 G 在来自 T 的样本上成为恒等映射。
  • 为生成图像加入全变差损失 L_TV 以实现平滑。
  • 采用交替优化方案,其中 D 最小化其损失,G 最小化其对应的复合损失。

实验结果

研究问题

  • RQ1在没有监督对儿的情况下,是否可以通过学习得到的 G 将 S 和 T 的无监督样本映射,以便下游函数 f 产生不变输出:f(x) ≈ f(G(x))?
  • RQ2将 G 与固定的 f 组合并使用多类 GAN 损失,是否比基线设置在跨域传输方面更有效?
  • RQ3DTN 在视觉距离较远的域对上表现如何(如 SVHN→MNIST、真实人脸→表情符号)?
  • RQ4每个损失项(f-恒等性、L_TID、TV、GAN)对传输质量的影响?
  • RQ5DTN 是否能够促进无监督域自适应和风格迁移(例如在 DTN 框架内的风格迁移)?

主要发现

指标/方面
表 1Digit transfer (SVHN→MNIST) accuracy on MNIST classifier基线方法(Sec. 3) 13.71%;DTN 90.66%;DTN w/0 L_TID 88.40%;DTN w/0 L_CONST 74.55%;DTN G 不包含 f 36.90%;DTN w/0 L_D and L_GANG 34.70%;DTN w/0 L_CONST & L_TID 5.28%;原始 SVHN 图像 40.06%
表 2Domain adaptation / MNIST targetSA Fernando 等 2013 59.32%;DANN Ganin 等 2016 73.85%;DTN 训练 s 84.44%;DTN 测试 79.72%
表 3Digit ‘3’ ablation (accuracy on MNIST for transferred SVHN examples labeled ‘3’)DTN 94.67%;‘3’ 未出现在 s 中 93.33%;‘3’ 未出现在 t 中 40.13%;未在 s&t 出现 60.02%;未在 s,t 以及 f 训练时 4.52%
表 4Face retrieval / CelebA-based emoji中位数排名 手工 16311;DTN 的 Emoji 16;平均排名 27992.34 比 535.47;Rank-1 0% 对 22.88%;Rank-5 0% 对 34.75%
  • DTN 在跨域传输准确性方面高于直接在 S 上操作的基线,例如在 SVHN→MNIST 的传输中,MNIST 分类器的准确率达到 90.66%,而基线为 13.71%。
  • DTN 能实现具有竞争力或优越的无监督域自适应;在传输后的 SVHN 测试集上,MNIST 分类器准确率为 79.72%(DTN)对比 73.85%(DANN)以及 59.32%(SAFER 基线)。
  • 移除 L_CONST 或 L_TID 会降低性能;L_CONST 尤为关键,在 digits 实验中 DTN 无 L_CONST 时降至 74.55%,若同时去掉 L_CONST 和 L_TID 则降至 5.28%。
  • 将其应用于人脸时,DTN 生成的表情符号比手工制作的更具辨识度,检索中位数排名为 16 对比手工的约 16311,且 Rank-1 为 22.88% 对 0%(手工)。
  • DTN 可以作为域传输的一个特例执行风格迁移,从照片生成表情符号风格的输出,并可用于将单张图像的风格转移到人脸上。
  • DTN 展示了在未见实体上生成令人信服的新样本的能力,同时保持由 f 捕获的身份信息。
  • 未见类别消融表明模型在 s 的训练数据中未出现的目标域类别时,能稳健避免生成缺失类别。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。