[论文解读] Towards Real-World Blind Face Restoration with Generative Facial Prior
GFP-GAN 使用一个预训练的人脸生成对抗网络作为生成性人脸先验,并通过 CS-SFT 层将其潜在特征通道化,以执行单次前向传递的盲目人脸修复并同时进行颜色增强,在合成数据和真实世界数据上优于现有方法。
Blind face restoration usually relies on facial priors, such as facial geometry prior or reference prior, to restore realistic and faithful details. However, very low-quality inputs cannot offer accurate geometric prior while high-quality references are inaccessible, limiting the applicability in real-world scenarios. In this work, we propose GFP-GAN that leverages rich and diverse priors encapsulated in a pretrained face GAN for blind face restoration. This Generative Facial Prior (GFP) is incorporated into the face restoration process via novel channel-split spatial feature transform layers, which allow our method to achieve a good balance of realness and fidelity. Thanks to the powerful generative facial prior and delicate designs, our GFP-GAN could jointly restore facial details and enhance colors with just a single forward pass, while GAN inversion methods require expensive image-specific optimization at inference. Extensive experiments show that our method achieves superior performance to prior art on both synthetic and real-world datasets.
研究动机与目标
- 在明确的几何先验或高质量参考不可用时,推动现实世界中的盲目人脸修复。
- 利用预训练人脸 GAN 的丰富先验,以联合修复面部细节并增强颜色。
- 开发一个框架,通过潜在映射和空间特征变换将降解去除模块与预训练 GAN 集成。
- 引入损失项(面部组件、身份保持和重建),以在真实感、保真度和身份之间取得平衡。
提出的方法
- 通过 U-Net 进行降解去除,以生成用于潜在映射到 StyleGAN2 的潜在特征以及用于调制的多分辨率空间特征。
- 将编码后的潜在特征映射到 StyleGAN2 的中间潜在代码(W),以在多个分辨率处获得 GAN 特征(F_GAN)。
- 使用多分辨率空间特征通过 Channel-Split Spatial Feature Transform (CS-SFT) 调制 F_GAN,以在保真度和真实感之间取得平衡。
- 通过使用预训练的 StyleGAN2 提供多样纹理、颜色和潜在几何线索,将 Generative Facial Prior (GFP) 融入进来。
- 通过重建损失、对抗损失、带局部判别器的面部组件损失和风格损失,以及身份保持损失(ArcFace)的组合进行训练。
- 利用金字塔恢复损失与基于 ROI 的判别器来增强眼睛、嘴部和其他面部组件。
实验结果
研究问题
- RQ1内嵌于 GAN 的预训练生成性面部先验能否在单次前向传播中提供足够的纹理、颜色和几何先验来修复现实世界降解的人脸?
- RQ2如何通过 CS-SFT 对 GAN 特征进行调制,将输入的空间信息整合起来,以在修复中实现保真度与真实感的平衡?
- RQ3面部组件判别器和特征风格损失是否能提升关键面部区域的感知质量和纹理真实感?
- RQ4GFP-GAN 框架在恢复高保真面部细节并实现颜色增强的同时,是否能够保持身份?
- RQ5与最先进的修复方法相比,该方法在合成和现实世界降解人脸上的性能如何?
主要发现
- GFP-GAN 在合成数据集和现实世界数据集上实现更高的感知质量,表现为更低的 LPIPS,以及与 FID/NIQE 相当或更好的以及身份保持性。
- CS-SFT 层在单次前向传播中无需迭代的 GAN 反演即可实现现实感与保真度的良好平衡。
- 通过预训练 GAN 中丰富的先验实现联合修复和颜色增强,改善头发、眼睛、牙齿和整体面部细节。
- 消融研究证实多分辨率空间调制、GFP 先验、金字塔恢复损失和面部组件损失对性能提升的重要性。
- 现实世界数据集(LFW、CelebChild、WebPhoto)显示 GFP-GAN 在 FID 和 NIQE 上相较于若干基线具有更优的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。