[论文解读] Masked Based Unsupervised Content Transfer
本文提出了一种基于掩码的无监督内容迁移方法,通过生成的掩码分离共有的内容与特定领域的内容,仅聚焦于相关图像区域,从而实现高质量且多样的翻译。该方法在内容迁移任务中达到最先进性能,并仅使用类别标签即可实现弱监督语义分割。
We consider the problem of translating, in an unsupervised manner, between two domains where one contains some additional information compared to the other. The proposed method disentangles the common and separate parts of these domains and, through the generation of a mask, focuses the attention of the underlying network to the desired augmentation alone, without wastefully reconstructing the entire target. This enables state-of-the-art quality and variety of content translation, as demonstrated through extensive quantitative and qualitative evaluation. Our method is also capable of adding the separate content of different guide images and domains as well as remove existing separate content. Furthermore, our method enables weakly-supervised semantic segmentation of the separate part of each domain, where only class labels are provided. Our code is available anonymously at http://bit.ly/2mXTizX.
研究动机与目标
- 解决一个域包含另一域中不存在的额外信息时的无监督图像翻译问题。
- 在无监督条件下分离共有的内容与特定领域的内容。
- 通过生成的掩码聚焦网络注意力于相关图像区域,从而提升翻译质量和多样性。
- 支持从引导图像中添加或移除独立内容,并适用于不同领域。
- 仅使用类别级别标注,实现对特定领域部分的弱监督语义分割。
提出的方法
- 该方法使用掩码生成网络识别并隔离目标图像中的特定领域内容。
- 将两域之间共享的共用内容与各自独有的独立内容进行解耦。
- 网络将生成过程聚焦于掩码区域,避免对整个目标图像进行冗余重建。
- 采用循环一致性对抗框架,确保身份保持和真实感翻译。
- 掩码与翻译网络端到端联合训练,使用对抗损失和重建损失。
- 通过组合来自不同引导图像的掩码,实现零样本内容迁移。
实验结果
研究问题
- RQ1通过学习到的掩码聚焦网络注意力于相关且特定领域的图像内容,能否提升无监督图像翻译的性能?
- RQ2在缺乏成对训练数据的情况下,该方法在解耦共用内容与独立内容方面表现如何?
- RQ3该方法能否通过组合多个引导图像的掩码,实现从多个图像中迁移内容?
- RQ4在仅使用类别标签的条件下,该方法在弱监督语义分割方面的性能如何?
- RQ5与基线方法相比,基于掩码的注意力机制是否能显著提升生成图像的质量与多样性?
主要发现
- 所提方法在定量指标和内容迁移的定性多样性方面均达到最先进性能。
- 通过组合不同引导图像的掩码,该方法可实现从多个图像中添加独立内容。
- 通过掩码操作,该方法支持从图像中移除已有的独立内容。
- 该方法仅使用类别级别标签即可实现对特定领域部分的弱监督语义分割。
- 大量实验证实,基于掩码的注意力机制通过减少共享区域的无谓重建,显著提升了翻译质量。
- 该方法在无成对数据的情况下,对多样化领域和图像类型展现出强大的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。