[论文解读] DualGAN: Unsupervised Dual Learning for Image-to-Image Translation
DualGAN 在原始-对偶循环中用两域未标记图像集训练两个生成器,能够在没有监督的情况下进行图像到图像翻译,结合重建损失和对抗判别器。
Conditional Generative Adversarial Networks (GANs) for cross-domain image-to-image translation have made much progress recently. Depending on the task complexity, thousands to millions of labeled image pairs are needed to train a conditional GAN. However, human labeling is expensive, even impractical, and large quantities of data may not always be available. Inspired by dual learning from natural language translation, we develop a novel dual-GAN mechanism, which enables image translators to be trained from two sets of unlabeled images from two domains. In our architecture, the primal GAN learns to translate images from domain U to those in domain V, while the dual GAN learns to invert the task. The closed loop made by the primal and dual tasks allows images from either domain to be translated and then reconstructed. Hence a loss function that accounts for the reconstruction error of images can be used to train the translators. Experiments on multiple image translation tasks with unlabeled data show considerable performance gain of DualGAN over a single GAN. For some tasks, DualGAN can even achieve comparable or slightly better results than conditional GAN trained on fully labeled data.
研究动机与目标
- 在标注成对数据稀缺或不可用时,推动无监督的图像到图像翻译。
- 开发一个受 NLP 双学习启发的双学习框架,以从未标记数据训练双向翻译器。
- 利用对抗判别器和重建损失来强化域一致性并生成高质量翻译。
提出的方法
- 使用两個 GAN(原始和对偶)从未标记的 U 和 V 学习 G_A: U -> V 和 G_B: V -> U。
- 对判别器 D_A 和 D_B 使用 Wasserstein GAN 损失,以区分真实样本与翻译样本。
- 加入 L1 重建损失:||u - G_B(G_A(u,z), z')|| 和 ||v - G_A(G_B(v,z'), z)|| 以强制循环一致性。
- 将生成器配置为带跳跃连接的 U-Net 风格结构,以保留结构细节。
- 使用在 70x70 街段上工作的 PatchGAN 判别器,以捕捉局部纹理和风格。
- 采用交替训练方案:对判别器进行 n_critic 次更新,然后更新生成器,使用 RMSProp 和权重裁剪(如 WGAN)。
实验结果
研究问题
- RQ1来自域 U 和 V 的两个未标记图像集合是否能够在没有成对数据的情况下训练出可靠的双向翻译器 G_A 和 G_B?
- RQ2将重建(循环一致性)损失与对抗反馈结合是否比单一 GAN 基线提供更好的翻译质量?
- RQ3在没有标注数据的情况下,DualGAN 相对于 GANs 和有监督的 cGAN 在多样的翻译任务中的性能如何?
- RQ4哪些网络设计选择(如 U-Net 生成器、PatchGAN 判别器)对无监督设置下的翻译保真度贡献最大?
- RQ5在某些任务上,是否存在若没有某些标注引导就会出现的无监督翻译局限性?
主要发现
- DualGAN 在多项无监督翻译任务中始终比单个 GAN 产生更少模糊和伪影。
- 在若干任务中,DualGAN 的表现与有监督的 cGAN 相当甚至超越,尽管使用的是未标记数据。
- DualGAN 能在未标记数据集上产生视觉上令人信服的翻译(如油画到中国画、塑料到金属等)。
- 基于 AMT 的感知与真实度评估显示 DualGAN 超过 GAN,在某些任务上可与 cGAN 相媲美。
- 对于 label-to-facade 和 map-to-aerial 任务,由于训练中缺乏像素到标签的对应信息, DualGAN 落后于 cGAN。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。