QUICK REVIEW

[论文解读] One-Shot Unsupervised Cross Domain Translation

Sagie Benaim, Lior Wolf|arXiv (Cornell University)|Jun 15, 2018

Multimodal Machine Learning Applications参考文献 26被引用 23

一句话总结

本文提出OST（One-Shot Translation），一种仅使用源域中一张图像和目标域预训练变分自编码器（VAE）的无监督跨域图像翻译方法。通过仅微调克隆VAE中未共享的层以适应单张源图像，同时保留共享特征，OST在性能上可与使用完整数据集训练的现有方法相媲美，展现出在低样本设置下的强大泛化能力。

ABSTRACT

Given a single image x from domain A and a set of images from domain B, our task is to generate the analogous of x in B. We argue that this task could be a key AI capability that underlines the ability of cognitive agents to act in the world and present empirical evidence that the existing unsupervised domain translation methods fail on this task. Our method follows a two step process. First, a variational autoencoder for domain B is trained. Then, given the new sample x, we create a variational autoencoder for domain A by adapting the layers that are close to the image in order to directly fit x, and only indirectly adapt the other layers. Our experiments indicate that the new method does as well, when trained on one sample x, as the existing domain transfer methods, when these enjoy a multitude of training samples from domain A. Our code is made publicly available at https://github.com/sagiebenaim/OneShotTranslation

研究动机与目标

为解决在仅从源域获取一张样本时的无监督跨域图像翻译挑战，而现有方法对此场景未予关注。
使认知智能体能够在未接触源域多张样本的情况下，生成目标域中的对应图像。
克服现有无监督域翻译模型依赖于双域大规模训练集的局限性。
开发一种在低样本场景下具有良好泛化能力且避免对单张源图像过拟合的方法。
验证两阶段方法——先在目标域预训练，再在单张源图像上微调——可实现与全数据集训练相当的性能。

提出的方法

首先在来自域B的大规模图像数据集上训练变分自编码器（VAE），以学习其潜在表征并生成样本。
将VAE克隆以创建两个独立的自编码器：一个用于域B，另一个用于来自域A的单张图像x。
两个自编码器共享顶部编码器层和底部解码器层，从而实现特征迁移，同时允许域特定的适应。
通过在两个域上使用重建损失，以及单向循环一致性损失，强制保证x与其回译至域B的结果之间的一致性。
仅通过未共享层将来自源图像x的梯度反向传播，防止过拟合并保留从域B学习到的共享特征。
对域B和单张源图像x均应用数据增强，以提升训练稳定性和泛化能力。

实验结果

研究问题

RQ1能否仅使用源域中的一张图像，有效实现无监督跨域图像翻译？
RQ2两阶段方法（先在目标域预训练，再在单张源图像上微调）是否在低样本设置下优于现有方法？
RQ3在仅有一张源图像可用时，域间共享特征学习是否能防止过拟合？
RQ4所提方法的性能是否与在完整数据集上训练的现有方法相当？
RQ5与最先进模型相比，该方法在内容保留和风格迁移方面的表现如何？

主要发现

OST在输入图像的感知相似性方面表现优异，与在完整数据集上训练的模型相当，在Summer2Winter数据集上感知距离为0.64，在Winter2Summer数据集上为0.73。
在用户研究中，OST在性能上匹配或超过在全部数据上训练的CycleGAN和UNIT，其中91%的用户将Facades-to-Images的翻译结果评为正确。
在Monet-to-Photo任务中，OST的感知距离为3.75，优于在单一样本上训练的CycleGAN（3.53）和UNIT（6.82）。
在Monet-to-Photo任务中，OST保持了较低的风格差异（1.20），表明其与目标域的风格对齐良好，与在完整数据集上训练的模型相当。
在Maps-to-Aerial-View任务中，OST在用户研究中达到56%的正确率，优于在单一样本上训练的CycleGAN（45%）和UNIT（37%）。
该方法在多种任务中表现出鲁棒性，包括Cityscapes-to-Labels和Facades-to-Images，在单样本场景下均展现出一致的性能提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。