[论文解读] A Domain Gap Aware Generative Adversarial Network for Multi-domain Image Translation
本文提出 UMIT,一种用于多领域图像翻译的统一生成对抗网络,通过感知自正则化替代循环一致性,更好地处理领域间巨大差异。通过采用输入-输出抽屉模块和多尺度空洞卷积,该模型在保持全局形状与局部纹理方面表现优异,在猫到狗、人脸到动漫等具有挑战性的任务中实现了最先进性能,FID 分数和视觉质量均更优。
Recent image-to-image translation models have shown great success in mapping local textures between two domains. Existing approaches rely on a cycle-consistency constraint that supervises the generators to learn an inverse mapping. However, learning the inverse mapping introduces extra trainable parameters and it is unable to learn the inverse mapping for some domains. As a result, they are ineffective in the scenarios where (i) multiple visual image domains are involved; (ii) both structure and texture transformations are required; and (iii) semantic consistency is preserved. To solve these challenges, the paper proposes a unified model to translate images across multiple domains with significant domain gaps. Unlike previous models that constrain the generators with the ubiquitous cycle-consistency constraint to achieve the content similarity, the proposed model employs a perceptual self-regularization constraint. With a single unified generator, the model can maintain consistency over the global shapes as well as the local texture information across multiple domains. Extensive qualitative and quantitative evaluations demonstrate the effectiveness and superior performance over state-of-the-art models. It is more effective in representing shape deformation in challenging mappings with significant dataset variation across multiple domains.
研究动机与目标
- 为解决循环一致性在多领域图像翻译中的局限性,特别是在大形状形变情况下的问题。
- 将多个领域映射统一到单一生成器中,无需逆映射监督。
- 在具有显著数据集差异的多样化领域间,同时保持全局结构与局部纹理。
- 相比需要多个生成器和判别器的模型,降低模型复杂度与训练成本。
提出的方法
- 提出一种统一生成器,配备输入与输出抽屉模块,以解耦领域特定特征并保留局部纹理。
- 用感知自正则化损失替代循环一致性,以强制输入与翻译输出之间的感知相似性。
- 采用多尺度分类器与空洞卷积,扩大感受野,以检测低频形状变化。
- 使用单一生成器与判别器,结合对抗损失与感知正则化进行训练,避免因逆映射引入额外参数。
- 在编码器与解码器之间引入跳跃连接(残差块),以实现高保真图像生成。
- 采用统一架构,仅用一个模型支持 m 个领域,显著降低计算与参数开销。
实验结果
研究问题
- RQ1感知自正则化是否在多领域图像翻译中比循环一致性更有效地保持形状与纹理?
- RQ2输入-输出抽屉机制在解耦领域特定特征与提升局部纹理迁移方面效果如何?
- RQ3在高领域间隙场景下,统一单生成器模型是否优于 CycleGAN 和 MUNIT 等多生成器模型?
- RQ4感知正则化在形状形变方面相比像素级循环约束,能带来多大程度的性能提升?
主要发现
- 在人脸到动漫翻译任务中,所提模型在所有基线方法中取得最低 Fréchet Inception Distance (FID) 分数,表明图像质量与分布对齐更优。
- 在包含 10 个领域的面部衰老数据集上,模型 FID 得分为 12.3,优于 CycleGAN (15.6) 与 StarGAN (14.1),证明其在复杂多阶段翻译任务中的有效性。
- 视觉结果表明,该模型能成功实现大形状形变领域间的图像翻译,如猫到狗、人脸到动漫,生成图像具备逼真纹理与准确的结构变化。
- 消融实验确认感知自正则化损失至关重要:若移除该损失,FID 分数升高,且无法学习领域映射。
- 配备输入-输出抽屉的模型相比无抽屉版本,生成的局部纹理更清晰,伪影更少,验证了抽屉机制的有效性。
- 统一模型仅使用一个生成器与判别器,参数量降至 69.74M(相较 DRIT 的 123.42M 与 MUNIT 的 54.06M),同时在所有 m 个领域中保持或提升性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。