Skip to main content
QUICK REVIEW

[论文解读] U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation

Junho Kim, Minjae Kim|arXiv (Cornell University)|Jul 25, 2019
Generative Adversarial Networks and Image Synthesis参考文献 42被引用 300
一句话总结

简要结论:介绍了一种无监督的图像到图像翻译模型,带有新的注意力模块和 AdaLIN 归一化,能够在不改变架构或超参数的情况下实现形状和纹理的翻译。

ABSTRACT

We propose a novel method for unsupervised image-to-image translation, which incorporates a new attention module and a new learnable normalization function in an end-to-end manner. The attention module guides our model to focus on more important regions distinguishing between source and target domains based on the attention map obtained by the auxiliary classifier. Unlike previous attention-based method which cannot handle the geometric changes between domains, our model can translate both images requiring holistic changes and images requiring large shape changes. Moreover, our new AdaLIN (Adaptive Layer-Instance Normalization) function helps our attention-guided model to flexibly control the amount of change in shape and texture by learned parameters depending on datasets. Experimental results show the superiority of the proposed method compared to the existing state-of-the-art models with a fixed network architecture and hyper-parameters. Our code and datasets are available at https://github.com/taki0112/UGATIT or https://github.com/znxlwm/UGATIT-pytorch.

研究动机与目标

  • 提出鲁棒的无监督图像到图像翻译,能够处理整体形状变化和纹理/风格变化,且无需对数据集进行特定调优。
  • 引入一种基于领域判别区域引导生成和判别的注意力机制。
  • 开发 AdaLIN,一种可学习的归一化方法,平衡实例归一化和层归一化,以适应数据集特征。
  • 展示在多样数据集上的翻译质量提升,并给出消融实验以证明设计选择的合理性。

提出的方法

  • 提出一个具备共享注意力模块的两生成器两判别器框架,受辅助分类器引导。
  • 在生成器中,通过受 CAM 启发的权重从编码器特征计算注意力图 a_s(x),再通过 G_t(a_s(x)) 进行翻译。
  • 在残差块中,使用 AdaLIN 以从注意力图学习的 gamma/beta 动态混合 IN 和 LN。
  • 判别器使用注意力 a_Dt(x) 关注目标域中的真假差异。
  • 通过结合 LSGAN 对抗损失、循环一致性损失、恒等损失和 CAM 损失来引导注意力和翻译的优化。
  • 以来自 X_s 和 X_t 的未配对数据进行训练,并通过基于 CAM 的监督强制跨域对齐。

实验结果

研究问题

  • RQ1具注意力引导的生成器和判别器是否能在几何结构变化各异的跨域场景中提升无监督图像到图像翻译?
  • RQ2AdaLIN 是否在不改变网络架构或超参数的情况下,提供对形状与纹理变化的灵活控制?
  • RQ3来自辅助分类器的注意力图是否有助于定位有意义的翻译区域并稳定训练?
  • RQ4在多样数据集上,U-GAT-IT 相对于最先进的无监督翻译方法的性能如何?
  • RQ5在不进行数据集特定调优的前提下,固定架构是否能同时处理大范围几何变化(如 selfie2anime)和纹理/风格迁移(如 photo2vangogh)?

主要发现

  • 所提出的注意力模块使生成器和判别器聚焦于语义上重要的区域,从而在各数据集上提升翻译质量。
  • AdaLIN 通过按层自适应 IN/LN 平衡,实现对内容保留和风格变化的灵活控制,改善了对形状主导和纹理主导翻译的结果。
  • 在多个数据集的定性和定量评估中,结合 CAM 和 AdaLIN 的 U-GAT-IT 超越了多个基线方法(CycleGAN、UNIT、MUNIT、DRIT、AGGAN)。
  • Kernel Inception Distance (KID) 消融显示当同时使用注意力和 AdaLIN 时得分最低;单独使用时仍具有竞争力。
  • 用户研究表明 U-GAT-IT 翻译的感知偏好更高,特别是在需要显著形状变化的数据集(如 selfie2anime)上。
  • 该模型在五个多样化数据集上以固定架构和超参数实现了出色的性能,体现了鲁棒性和迁移能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。