[论文解读] StarGAN v2: Diverse Image Synthesis for Multiple Domains
StarGAN v2 学会了单一生成器,能够通过学习域特定风格码并由映射网络和风格编码器实现跨多个域的多样图像,在质量和多样性方面优于以前的方法,在 CelebA-HQ 和 AFHQ 上。
A good image-to-image translation model should learn a mapping between different visual domains while satisfying the following properties: 1) diversity of generated images and 2) scalability over multiple domains. Existing methods address either of the issues, having limited diversity or multiple models for all domains. We propose StarGAN v2, a single framework that tackles both and shows significantly improved results over the baselines. Experiments on CelebA-HQ and a new animal faces dataset (AFHQ) validate our superiority in terms of visual quality, diversity, and scalability. To better assess image-to-image translation models, we release AFHQ, high-quality animal faces with large inter- and intra-domain differences. The code, pretrained models, and dataset can be found at https://github.com/clovaai/stargan-v2.
研究动机与目标
- 激励一个可扩展的多域图像到图像翻译框架,能够产生多样化的输出。
- 引入域特定风格空间以克服确定性映射。
- 提出一个映射网络和一个风格编码器,用以生成和提取域风格。
- 在保持源域特征的同时,确保风格一致的图像合成。
- 提供一个新的高质量 AFHQ 动物脸数据集以用于评估。
提出的方法
- 用域特定风格码取代域标签来驱动翻译。
- 使用多分支映射网络从潜在代码生成每域风格。
- 使用多分支风格编码器从参考图像提取每域风格。
- 通过自适应实例归一化 (AdaIN) 将风格码注入生成器。
- 使用对抗损失、风格重构损失、多样性正则化损失和循环一致性损失进行优化。

实验结果
研究问题
- RQ1单个生成器是否能够在不需要为每个域单独建模的情况下,在跨多个域上产生多样化图像?
- RQ2域特定风格空间是否能够在保持源特征的同时实现多域多样性?
- RQ3域风格的映射与编码是否在潜在引导和参考引导合成方面都优于现有基线?
- RQ4该方法是否可扩展到超出 CelebA-HQ 的新域和数据集?
- RQ5在新引入的多域动物脸数据集 AFHQ 上,StarGAN v2 与先前方法相比表现如何?
主要发现
- 与基线相比,StarGAN v2 在 CelebA-HQ 和 AFHQ 上实现了更高的视觉质量和多样性,显示在定量指标和定性结果上。
- 在潜在引导的合成上,StarGAN v2 在 CelebA-HQ 上达到 FID 13.7 和 LPIPS 0.452,在 AFHQ 上达到 FID 16.2 和 LPIPS 0.450,优于 MUNIT、DRIT、MSGAN。
- 在参考引导合成上,StarGAN v2 在 CelebA-HQ 上达到 FID 23.8 和 LPIPS 0.388,在 AFHQ 上达到 FID 19.8 和 LPIPS 0.432,优于基线。
- 人工评估(AMT)表明,在 CelebA-HQ 和 AFHQ 上,StarGAN v2 在图像质量和风格呈现方面更受偏好。
- 作者发布 AFHQ,一个包含 15k 张高质量动物脸的数据集,包含三个域(猫、狗、野生动物),以促进多域翻译的评估。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。