QUICK REVIEW

[论文解读] FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors

Yu Chen, Ying Tai|arXiv (Cornell University)|Nov 29, 2017

Advanced Image Processing Techniques参考文献 38被引用 35

一句话总结

FSRNet 是一种用于人脸超分的端到端深度学习框架，通过利用人脸关键点热图和语义分割图作为几何先验，从极低分辨率输入（例如 16×16 像素）重建高分辨率人脸图像，且无需对齐。通过共享特征和先验估计，联合训练粗粒度 SR 网络与细粒度 SR 网络，FSRNet 在定量指标和视觉质量方面均达到当前最优性能，FSRGAN 进一步通过对抗性训练提升生成结果的真实感。

ABSTRACT

Face Super-Resolution (SR) is a domain-specific super-resolution problem. The specific facial prior knowledge could be leveraged for better super-resolving face images. We present a novel deep end-to-end trainable Face Super-Resolution Network (FSRNet), which makes full use of the geometry prior, i.e., facial landmark heatmaps and parsing maps, to super-resolve very low-resolution (LR) face images without well-aligned requirement. Specifically, we first construct a coarse SR network to recover a coarse high-resolution (HR) image. Then, the coarse HR image is sent to two branches: a fine SR encoder and a prior information estimation network, which extracts the image features, and estimates landmark heatmaps/parsing maps respectively. Both image features and prior information are sent to a fine SR decoder to recover the HR image. To further generate realistic faces, we propose the Face Super-Resolution Generative Adversarial Network (FSRGAN) to incorporate the adversarial loss into FSRNet. Moreover, we introduce two related tasks, face alignment and parsing, as the new evaluation metrics for face SR, which address the inconsistency of classic metrics w.r.t. visual perception. Extensive benchmark experiments show that FSRNet and FSRGAN significantly outperforms state of the arts for very LR face SR, both quantitatively and qualitatively. Code will be made available upon publication.

研究动机与目标

为解决极低分辨率（16×16）且未对齐的人脸图像超分问题，此类图像会降低下游人脸分析任务的性能。
克服先前多阶段人脸超分方法无法端到端训练且未能有效利用人脸几何先验的局限性。
提出人脸对齐与语义分割作为新型、与感知对齐的评估指标，以更准确反映几何保真度，优于传统 PSNR/SSIM 指标。
开发一种可端到端训练的架构，联合优化图像重建与先验估计，以提升面部结构恢复能力。

提出的方法

粗粒度 SR 网络首先从低分辨率输入生成初步的高分辨率人脸图像。
粗粒度 HR 输出被送入两个并行分支：一个用于图像特征提取的细粒度 SR 编码器，以及一个用于预测人脸关键点热图和语义分割图的先验估计网络。
细粒度 SR 编码器的特征与估计的人脸先验被融合，并通过细粒度 SR 解码器解码，生成最终的高分辨率人脸图像。
先验估计网络采用多任务学习，从粗粒度 HR 图像中联合预测关键点热图与语义分割图。
FSRGAN 通过引入对抗性损失扩展 FSRNet，以增强生成 HR 人脸的感知真实感。
模型采用联合损失函数（包含 L1、感知损失与对抗性损失）进行端到端训练，实现图像质量与几何先验的联合优化。

实验结果

研究问题

RQ1使用人脸几何先验（关键点与语义分割图）进行端到端训练，是否能显著提升在极低分辨率人脸图像上的超分性能？
RQ2在训练过程中引入人脸先验估计，是否能相比标准 SR 方法提升重建人脸的几何精度？
RQ3人脸对齐与语义分割性能能否作为可靠、感知驱动的评估指标，以解决 GAN 基于 SR 中 PSNR/SSIM 与视觉质量之间的不一致问题？
RQ4在高倍数超分（如 8 倍）下，所提出的 FSRNet 在定量指标与视觉真实感方面与当前最优方法相比表现如何？
RQ5联合估计人脸先验与图像重建是否能减少对迭代或多阶段训练流程的依赖？

主要发现

在 Helen 数据集上，FSRNet 的人脸对齐平均 NRMSE 为 3.97，优于 SRResNet（4.87）与双三次插值（5.87），表明其具有更优的几何精度。
在人脸语义分割评估中，FSRNet 在 Helen 数据集上达到 PSNR 16.11 与 SSIM 0.629，显著优于 SRResNet（PSNR：15.32，SSIM：0.603）。
FSRGAN 将 MSE 降低至 0.934，同时将 PSNR 提升至 16.11，表明其在保持高几何保真度的同时，显著提升了感知质量。
模型在 Titan X GPU 上处理 128×128 图像仅需 0.012 秒，显著快于先前方法（如 CBN：3.84 秒）与传统方法（8–20 分钟）。
即使从低分辨率输入开始，FSRNet 的关键点估计性能仍优于多个基于高分辨率真实标签训练的当前最优方法，凸显其鲁棒性。
联合使用对齐与语义分割作为评估指标表明，GAN 基于模型（FSRGAN）在保留人脸几何结构方面优于 MSE 基于模型，有效解决了 PSNR 与视觉质量之间的不一致问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。