Skip to main content
QUICK REVIEW

[论文解读] High Resolution Face Editing with Masked GAN Latent Code Optimization

Martin Pernuš, Vitomir Štruc|arXiv (Cornell University)|Mar 20, 2021
Face recognition and analysis被引用 8
一句话总结

MaskFaceGAN 提出了一种高分辨率人脸编辑方法,通过人脸分割器和属性分类器施加空间与语义约束,优化 StyleGAN2 的潜在码,在 1024×1024 分辨率下实现无伪影、逼真的编辑效果,且相比先前基于 GAN 的方法,属性纠缠现象显著减少。

ABSTRACT

Face editing represents a popular research topic within the computer vision and image processing communities. While significant progress has been made recently in this area, existing solutions: (i) are still largely focused on low-resolution images, (ii) often generate editing results with visual artefacts, or (iii) lack fine-grained control and alter multiple (entangled) attributes at once, when trying to generate the desired facial semantics. In this paper, we aim to address these issues though a novel attribute editing approach called MaskFaceGAN that focuses on local attribute editing. The proposed approach is based on an optimization procedure that directly optimizes the latent code of a pre-trained (state-of-the-art) Generative Adversarial Network (i.e., StyleGAN2) with respect to several constraints that ensure: (i) preservation of relevant image content, (ii) generation of the targeted facial attributes, and (iii) spatially--selective treatment of local image areas. The constraints are enforced with the help of an (differentiable) attribute classifier and face parser that provide the necessary reference information for the optimization procedure. MaskFaceGAN is evaluated in extensive experiments on the CelebA-HQ, Helen and SiblingsDB-HQf datasets and in comparison with several state-of-the-art techniques from the literature, i.e., StarGAN, AttGAN, STGAN, and two versions of InterFaceGAN. Our experimental results show that the proposed approach is able to edit face images with respect to several local facial attributes with unprecedented image quality and at high-resolutions (1024x1024), while exhibiting considerably less problems with attribute entanglement than competing solutions. The source code is made freely available from: https://github.com/MartinPernus/MaskFaceGAN.

研究动机与目标

  • 解决现有基于 GAN 的人脸编辑方法存在的视觉伪影、分辨率低或属性纠缠等问题。
  • 实现在高分辨率下对发色、妆容和面部结构等面部属性的细粒度、局部化编辑。
  • 通过约束性潜在空间优化,在修改特定面部属性的同时保持全局图像结构与身份一致性。
  • 提供一种支持局部与全局属性编辑的方法,兼具感知保真度和最小的语义漂移。

提出的方法

  • 通过基于梯度的优化方法,对预训练的 StyleGAN2 生成器的潜在码进行优化。
  • 利用可微分的属性分类器施加语义约束,以确保目标属性的出现或消失。
  • 使用预训练的人脸分割器施加空间约束,以定义特定区域的编辑行为(例如,仅修改眉毛或嘴唇)。
  • 采用基于面部区域并集的混合策略,在优化过程中保留原始图像内容。
  • 结合 LPIPS 损失与多层特征匹配,以保持输出图像与输入图像之间的感知相似性。
  • 采用多目标损失函数,整合属性分类、空间分割与感知重建损失,以实现稳健的优化。

实验结果

研究问题

  • RQ1在 StyleGAN2 中通过潜在码优化,能否实现在 1024×1024 高分辨率下、伪影极少的人脸编辑?
  • RQ2来自人脸分割器的空间约束在局部编辑过程中,能在多大程度上减少属性纠缠?
  • RQ3可微分属性分类器的引入,如何提升对目标属性语义的控制能力?
  • RQ4与现有的基于 GAN 反演的方法相比,该方法是否能更好地保持身份与背景细节?
  • RQ5该方法能否在保持一致感知质量的前提下,同时支持局部与全局属性编辑?

主要发现

  • MaskFaceGAN 生成的高分辨率(1024×1024)编辑结果在视觉质量上优于最先进方法,且无伪影。
  • 该方法显著减少了属性纠缠,尤其在眉毛、发色和口红等局部属性上效果明显。
  • 用户研究表明,MaskFaceGAN 在感知质量与属性控制方面优于竞争方法,但在“眼睛变窄”任务中,模型倾向于闭眼而非真正实现眼睛变窄。
  • 与 InterFaceGAN 等类似方法相比,该优化过程收敛更快,每张图像所需步数更少。
  • 即使在修改全局属性(如“年轻”或“男性”)时,该方法仍能保持与输入图像在面部外观与背景上的强对应关系。
  • 当属性分类器或人脸分割器产生错误预测时,方法会出现局限性,导致特定情况下出现非预期编辑。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。