QUICK REVIEW

[论文解读] Generative Face Completion

Yijun Li, Sifei Liu|arXiv (Cornell University)|Apr 19, 2017

Generative Adversarial Networks and Image Synthesis参考文献 28被引用 93

一句话总结

本论文提出一种深度生成模型用于人脸修复，使用带有两个对抗判别器（局部和全局）的自编码器生成器，加上语义解析损失，以产生在缺失区域在人脸中的语义一致性和照片级真实感。

ABSTRACT

In this paper, we propose an effective face completion algorithm using a deep generative model. Different from well-studied background completion, the face completion task is more challenging as it often requires to generate semantically new pixels for the missing key components (e.g., eyes and mouths) that contain large appearance variations. Unlike existing nonparametric algorithms that search for patches to synthesize, our algorithm directly generates contents for missing regions based on a neural network. The model is trained with a combination of a reconstruction loss, two adversarial losses and a semantic parsing loss, which ensures pixel faithfulness and local-global contents consistency. With extensive experimental results, we demonstrate qualitatively and quantitatively that our model is able to deal with a large area of missing pixels in arbitrary shapes and generate realistic face completion results.

研究动机与目标

通过生成缺失面部区域的语义有效内容，超越基于补丁的背景填充，推动稳健的人脸修复。
开发一个基于深度自编码器的生成器，基于上下文条件来填充面部上的大尺寸不规则遮罩。
用局部和全局对抗性损失对生成进行正则化，以确保真实感和全局一致性。
纳入一个语义解析网络，以强制面部结构与周围上下文保持一致。
在 CelebA 上通过定性与定量评估，展示在不同遮罩大小和形状下的有效性。

提出的方法

基于 VGG-19 特征、并扩展了额外层的编码器-解码器生成器。
两个判别器：一个局部判别器聚焦于掩模区域内的真实感，一个全局判别器强制整图真实感。
一个固定的语义解析网络提供语义正则化损失，以使生成内容与面部部位保持对齐。
一个显式重建损失（Lr）补充对抗损失以稳定训练。
总损失 L = Lr + λ1La1 + λ2La2 + λ3Lp，用于平衡像素保真度、局部真实感、全局真实感和解析一致性。
一种课程化训练策略逐步引入对抗损失和解析损失，以稳定学习。

实验结果

研究问题

RQ1在没有外部补丁数据库的情况下，深度生成模型是否能合成语义有效且照片级真实感的缺失面部区域？
RQ2结合局部和全局对抗损失以及语义解析，是否能提升修复的真实感和面部连贯性？
RQ3在大尺寸、不规则遮罩以及面部姿态/对齐变化下，模型表现如何？
RQ4语义正则化在多大程度上保持身份识别和面部结构在修复过程中的一致性？
RQ5不同遮罩尺寸对修复质量和身份保留有何影响？

主要发现

遮罩	M1	M2	M3	M4	CE	M5
O1	0.798	0.753	0.782	0.804	0.772	0.824
O2	0.805	0.763	0.787	0.808	0.774	0.826
O3	0.723	0.675	0.708	0.731	0.719	0.759
O4	0.747	0.701	0.741	0.759	0.754	0.789
O5	0.751	0.706	0.732	0.755	0.757	0.784
O6	0.807	0.764	0.808	0.824	0.818	0.841

定性结果显示对于大尺寸和不规则遮罩，修复的面部完成具有现实性且语义上可信。
在 CelebA 上的定量结果在六种遮罩配置下，在 SSIM 和 PSNR 指标上相较基线显示改善。
身份距离指标表明该方法在保留身份方面优于简单重建或随机噪声填充，尽管对于大遮罩仍存在差距。
双判别器设置（局部和全局）结合语义解析可得到更连贯的细节和面部特征对齐。
该方法对不同遮罩尺寸具备泛化能力（较小的遮罩表现最好）并对不同遮挡模式具有鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。