[论文解读] Semi-Latent GAN: Learning to generate and modify facial images from attributes
本文提出了一种新型生成对抗网络——半隐式生成对抗网络(Semi-Latent GAN, SL-GAN),通过在半隐式空间中联合学习用户定义的和潜在的面部属性,实现高质量的面部图像生成与身份保持的属性修改。通过引入识别网络以最大化生成图像与属性之间的互信息,SL-GAN 在 CelebA 和 CASIA-WebFace 数据集上的视觉质量、属性显著性以及身份保持方面均优于当前最先进方法。
Generating and manipulating human facial images using high-level attributal controls are important and interesting problems. The models proposed in previous work can solve one of these two problems (generation or manipulation), but not both coherently. This paper proposes a novel model that learns how to both generate and modify the facial image from high-level semantic attributes. Our key idea is to formulate a Semi-Latent Facial Attribute Space (SL-FAS) to systematically learn relationship between user-defined and latent attributes, as well as between those attributes and RGB imagery. As part of this newly formulated space, we propose a new model --- SL-GAN which is a specific form of Generative Adversarial Network. Finally, we present an iterative training algorithm for SL-GAN. The experiments on recent CelebA and CASIA-WebFace datasets validate the effectiveness of our proposed framework. We will also make data, pre-trained models and code available.
研究动机与目标
- 解决现有模型仅能生成或修改面部图像,而无法协同完成两者的缺陷。
- 学习用户定义属性与潜在面部属性的联合表征,以同时捕捉可解释的语义信息与紧凑的数据驱动特征。
- 在属性修改过程中保持身份一致性,同时确保生成图像的高视觉保真度。
- 开发一种统一的训练框架,能够联合优化生成与修改任务。
提出的方法
- 构建结合用户定义属性与数据驱动潜在属性的半隐式面部属性空间(Semi-Latent Facial Attribute Space, SL-FAS)。
- 设计 SL-GAN 为三部分框架:用于图像重建的编码器-解码器、用于图像质量的 GAN,以及最大化属性与生成图像之间互信息的识别网络。
- 将解码器网络用作生成器,从 SL-FAS 中的属性向量合成图像。
- 引入一种迭代训练算法,联合优化生成器、判别器与识别网络。
- 利用识别网络通过最大化生成图像与属性向量之间的互信息,学习解耦表征。
- 在 CelebA 和 CASIA-WebFace 上端到端训练模型,损失函数包括对抗损失、重建损失以及互信息最大化。
实验结果
研究问题
- RQ1统一的深度生成模型能否同时实现高保真度的面部图像生成与身份保持的属性修改?
- RQ2如何在半隐式空间中联合建模用户定义属性与潜在面部属性,以提升解耦性与可控性?
- RQ3最大化生成图像与属性向量之间互信息对视觉质量与属性准确率有何影响?
- RQ4与现有方法相比,所提出的 SL-GAN 在属性修改保真度与身份保持方面表现如何?
主要发现
- 在用户研究中,SL-GAN 在正确猜测修改后属性的准确率达到 75.0%,显著优于 icGAN(65.4%)与 attrib2img(30.0%)。
- 在用户研究中,SL-GAN 在属性显著性方面得分为 4.37,图像质量为 4.20,身份相似性为 4.45,所有指标均优于所有对比模型。
- 定性结果表明,SL-GAN 能够以高视觉保真度成功修改细微属性,如“红润脸颊”、“上扬眉毛”和“眼周黑眼圈”。
- 与 attrib2img 相比,SL-GAN 生成的图像在发丝细节上更清晰锐利,后者尽管面部特征清晰,但发丝部分模糊。
- 该模型在多种属性上泛化良好,涵盖全局属性(如“男性”、“微笑”)与局部属性(如“苍白肤色”、“秃头”)。
- 迭代训练算法在统一框架中有效平衡了生成、修改与身份保持之间的竞争目标。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。