QUICK REVIEW

[论文解读] Unsupervised Cross-Domain Image Generation

Yaniv Taigman, Adam Polyak|arXiv (Cornell University)|Nov 7, 2016

Generative Adversarial Networks and Image Synthesis参考文献 18被引用 428

一句话总结

本文提出领域传输网络（DTN），一种无监督的方法，通过将学习得到的 g 与固定的 f 组合，将样本 S 映射到目标域 T，采用多类 GAN 损失、f-恒等性和自身份正则化，在数字和人脸上演示出具有说服力的跨域图像，同时保持身份信息。

ABSTRACT

We study the problem of transferring a sample in one domain to an analog sample in another domain. Given two related domains, S and T, we would like to learn a generative function G that maps an input sample from S to the domain T, such that the output of a given function f, which accepts inputs in either domains, would remain unchanged. Other than the function f, the training data is unsupervised and consist of a set of samples from each domain. The Domain Transfer Network (DTN) we present employs a compound loss function that includes a multiclass GAN loss, an f-constancy component, and a regularizing component that encourages G to map samples from T to themselves. We apply our method to visual domains including digits and face images and demonstrate its ability to generate convincing novel images of previously unseen entities, while preserving their identity.

研究动机与目标

开发一种从源域 S 将样本转移到相关目标域 T 的方法，而无需监督对儿。
确保目标域输出保留由给定网络 f 编码的功能身份。
促进一种将可学习的 g 与固定表示 f 组合的架构设计，以聚焦于与 f 相关的特征。
在数字和人脸到表情符号的转换上演示该方法，并分析其组成部分及局限性。

提出的方法

使用两个部分的生成器 G = g ∘ f，其中 f 是固定的特征提取器，g 将 f(x) 映射到目标域表示。
以多类 GAN 损失进行训练，在真实目标样本与来自 S 和 T 的生成样本之间进行判别。
添加一个 f-恒等损失，最小化 ||f(x) − f(G(x))||，其中 x 属于 S。
包含一个目标身份正则化项 L_TID，鼓励 G 在来自 T 的样本上成为恒等映射。
为生成图像加入全变差损失 L_TV 以实现平滑。
采用交替优化方案，其中 D 最小化其损失，G 最小化其对应的复合损失。

实验结果

研究问题

RQ1在没有监督对儿的情况下，是否可以通过学习得到的 G 将 S 和 T 的无监督样本映射，以便下游函数 f 产生不变输出：f(x) ≈ f(G(x))？
RQ2将 G 与固定的 f 组合并使用多类 GAN 损失，是否比基线设置在跨域传输方面更有效？
RQ3DTN 在视觉距离较远的域对上表现如何（如 SVHN→MNIST、真实人脸→表情符号）？
RQ4每个损失项（f-恒等性、L_TID、TV、GAN）对传输质量的影响？
RQ5DTN 是否能够促进无监督域自适应和风格迁移（例如在 DTN 框架内的风格迁移）？

主要发现

表	指标/方面	值
表 1	Digit transfer (SVHN→MNIST) accuracy on MNIST classifier	基线方法（Sec. 3） 13.71%；DTN 90.66%；DTN w/0 L_TID 88.40%；DTN w/0 L_CONST 74.55%；DTN G 不包含 f 36.90%；DTN w/0 L_D and L_GANG 34.70%；DTN w/0 L_CONST & L_TID 5.28%；原始 SVHN 图像 40.06%
表 2	Domain adaptation / MNIST target	SA Fernando 等 2013 59.32%；DANN Ganin 等 2016 73.85%；DTN 训练 s 84.44%；DTN 测试 79.72%
表 3	Digit ‘3’ ablation (accuracy on MNIST for transferred SVHN examples labeled ‘3’)	DTN 94.67%；‘3’ 未出现在 s 中 93.33%；‘3’ 未出现在 t 中 40.13%；未在 s&t 出现 60.02%；未在 s,t 以及 f 训练时 4.52%
表 4	Face retrieval / CelebA-based emoji	中位数排名手工 16311；DTN 的 Emoji 16；平均排名 27992.34 比 535.47；Rank-1 0% 对 22.88%；Rank-5 0% 对 34.75%

DTN 在跨域传输准确性方面高于直接在 S 上操作的基线，例如在 SVHN→MNIST 的传输中，MNIST 分类器的准确率达到 90.66%，而基线为 13.71%。
DTN 能实现具有竞争力或优越的无监督域自适应；在传输后的 SVHN 测试集上，MNIST 分类器准确率为 79.72%（DTN）对比 73.85%（DANN）以及 59.32%（SAFER 基线）。
移除 L_CONST 或 L_TID 会降低性能；L_CONST 尤为关键，在 digits 实验中 DTN 无 L_CONST 时降至 74.55%，若同时去掉 L_CONST 和 L_TID 则降至 5.28%。
将其应用于人脸时，DTN 生成的表情符号比手工制作的更具辨识度，检索中位数排名为 16 对比手工的约 16311，且 Rank-1 为 22.88% 对 0%（手工）。
DTN 可以作为域传输的一个特例执行风格迁移，从照片生成表情符号风格的输出，并可用于将单张图像的风格转移到人脸上。
DTN 展示了在未见实体上生成令人信服的新样本的能力，同时保持由 f 捕获的身份信息。
未见类别消融表明模型在 s 的训练数据中未出现的目标域类别时，能稳健避免生成缺失类别。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。