QUICK REVIEW

[论文解读] Unsupervised Attention-guided Image to Image Translation

Youssef Alami Mejjati, Christian Richardt|arXiv (Cornell University)|Jun 6, 2018

Multimodal Machine Learning Applications被引用 201

一句话总结

该论文将无监督注意力机制整合到类似 CycleGAN 的图像到图像翻译中，以将翻译聚焦于前景对象同时保持背景，从而在无需监督的情况下提升真实感。

ABSTRACT

Current unsupervised image-to-image translation techniques struggle to focus their attention on individual objects without altering the background or the way multiple objects interact within a scene. Motivated by the important role of attention in human perception, we tackle this limitation by introducing unsupervised attention mechanisms that are jointly adversarialy trained with the generators and discriminators. We demonstrate qualitatively and quantitatively that our approach is able to attend to relevant regions in the image without requiring supervision, and that by doing so it achieves more realistic mappings compared to recent approaches.

研究动机与目标

通过关注相关场景区域来推动无监督的图像到图像翻译的改进。
引入可训练的注意力网络，指引生成器仅翻译前景对象。
联合训练注意力网络、生成器和判别器，使之仅改变具有辨识性的区域。
保留背景内容，避免背景被不现实地修改。
展示对现有方法在定性和定量方面的改进。

提出的方法

在 CycleGAN 框架中添加注意力网络 A_S 与 A_T。
计算注意力图并将其作为掩模应用，将前景翻译区域与保留背景相结合（s' = s_a ⊙ F(s) + (1 - s_a) ⊙ s）。
使用对抗损失和循环一致性损失进行训练，并设定一个学习目标，强制翻译带有注意力区域。
采用在掩模区域上工作的判别器以防止背景涂绘并稳定训练（采用分阶段训练计划）。
训练期间使用连续注意力掩模，对判别器使用阈值化掩模以避免模式崩溃。
提供一个交替更新生成器、注意力和判别器的算法训练过程。

实验结果

研究问题

RQ1在没有监督的情况下，无监督注意力机制能否学习将翻译聚焦于有意义的区域？
RQ2与现有的无监督 I2I 方法相比，注意力引导的翻译是否能提升图像真实感并保留背景？
RQ3训练计划和判别器遮罩对学习稳定注意力和高质量翻译的影响是什么？
RQ4该方法在具有多尺度对象和多样背景的数据集上的表现如何？

主要发现

我们的方案在跨映射中实现了最低的 Kernel Inception Distance (KID)，表明与真实图像的视觉相似性更高。
定性结果显示注意力图聚焦于域描述对象并避免背景改变。
消融实验显示循环一致性和双重注意力（A_S 和 A_T）对实现清晰、局部化注意力的重要性。
使用注意力引导判别器和分阶段训练可减少模式崩溃和背景伪影。
与基线方法（CycleGAN、DiscoGAN、DualGAN、UNIT、RA）相比，所提方法在翻译更真实，尤其是在多尺度对象方面。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。