QUICK REVIEW

[论文解读] Face Synthesis from Visual Attributes via Sketch using Conditional VAEs and GANs

Xing Di, Vishal M. Patel|arXiv (Cornell University)|Dec 30, 2017

Face recognition and analysis参考文献 36被引用 33

一句话总结

本文提出 Attribute2Sketch2Face，一种三阶段生成框架，通过先生成草图再进行优化与重构，从视觉属性合成高保真度的人脸图像。该方法结合条件变分自编码器（CVAE）实现属性到草图的生成，以及结合新型 AUDeNet 生成器的生成对抗网络（GAN），用于草图增强与人脸合成，在 CelebA、LFWA 和 CUHK 数据集上实现了真实感与属性保真度的最先进性能。

ABSTRACT

Automatic synthesis of faces from visual attributes is an important problem in computer vision and has wide applications in law enforcement and entertainment. With the advent of deep generative convolutional neural networks (CNNs), attempts have been made to synthesize face images from attributes and text descriptions. In this paper, we take a different approach, where we formulate the original problem as a stage-wise learning problem. We first synthesize the facial sketch corresponding to the visual attributes and then we reconstruct the face image based on the synthesized sketch. The proposed Attribute2Sketch2Face framework, which is based on a combination of deep Conditional Variational Autoencoder (CVAE) and Generative Adversarial Networks (GANs), consists of three stages: (1) Synthesis of facial sketch from attributes using a CVAE architecture, (2) Enhancement of coarse sketches to produce sharper sketches using a GAN-based framework, and (3) Synthesis of face from sketch using another GAN-based network. Extensive experiments and comparison with recent methods are performed to verify the effectiveness of the proposed attribute-based three stage face synthesis method.

研究动机与目标

为解决尽管属性预测技术已取得进展，但从视觉属性生成照片级真实感人脸图像这一具有挑战性的逆问题仍研究不足的问题。
通过引入中间草图表征，借鉴人类类 forensic 草图绘制过程，提升图像质量和属性保真度。
设计一种分阶段学习框架，将复杂的面部合成任务分解为可管理的子任务：属性到草图、草图增强与草图到人脸生成。
设计一种新型的属性保持生成器架构（AUDeNet），融合纹理属性与粗略草图，以生成更清晰的草图输出。
与现有基于文本或属性的图像生成方法相比，在视觉质量与属性一致性方面实现更优性能。

提出的方法

第一阶段使用条件变分自编码器（CVAE）从输入的视觉属性生成粗略的人脸草图。
第二阶段采用基于 GAN 的 S2S（草图到草图）方法，利用新型 AUDeNet 生成器对粗略草图进行增强，该生成器结合了 U-Net 与 DenseNet 架构，以实现更优的特征传播与细化。
第三阶段（S2F，草图到人脸）采用另一 GAN 生成器，将增强后的草图与原始属性融合，以合成高分辨率、彩色的人脸图像。
AUDeNet 生成器显式编码纹理属性，并利用跳跃连接与密集块在草图增强过程中保留细节。
框架采用解耦表征学习，将属性与潜在向量融合，以确保在人脸合成过程中保持属性一致性。
训练分三阶段进行：A2S（CVAE）、S2S（含 AUDeNet 的 GAN）与 S2F（GAN），推理阶段可进行端到端微调。

实验结果

研究问题

RQ1与直接从属性到人脸的生成相比，分阶段生成框架是否能提升人脸合成的质量与真实感？
RQ2借鉴法医绘图过程的中间草图表征是否能带来更高的属性保真度与图像质量？
RQ3结合 U-Net 与 DenseNet 的新型 AUDeNet 生成器架构，是否能有效增强粗略草图并保留属性信息？
RQ4在最终合成阶段采用解耦表征学习，在生成的人脸中在多大程度上能保持属性一致性？
RQ5所提出的 Attribute2Sketch2Face 框架在属性保留与图像真实感方面，与最先进方法相比在定性与定量上表现如何？

主要发现

所提出的 Attribute2Sketch2Face 方法在 CelebA（12.18）、LFWA（10.85）与 CUHK（9.72）数据集上均取得最高的 Inception Score，表明其在图像真实感与多样性方面优于基线方法。
该方法在 CelebA（0.87）、LFWA（1.02）与 CUHK（1.15）上实现了最低的属性 L2 范数，证明其在合成图像中具有更优的属性保真度。
定性结果表明，仅改变属性权重即可调整面部属性（如性别、微笑、肤色、发色）而不改变身份，证实了属性的解耦性。
在固定属性的前提下改变噪声向量，可改变身份但保持属性不变，进一步验证了模型的解耦表征学习能力。
消融实验表明各阶段与 AUDeNet 生成器均至关重要，移除任一组件后性能显著下降。
该框架能成功生成高质量、照片级真实感的人脸图像，涵盖多样化属性与身份，其视觉质量超越了现有的 CVAE 与 GAN 基方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。