QUICK REVIEW

[论文解读] Semantic Facial Expression Editing using Autoencoded Flow

Raymond A. Yeh, Ziwei Liu|arXiv (Cornell University)|Nov 30, 2016

Generative Adversarial Networks and Image Synthesis参考文献 27被引用 69

一句话总结

本文提出一种流变分自编码器（FVAE），通过在解耦的潜在空间中学习逐像素的流场，实现了高质量、语义化的面部表情编辑。通过结合变分自编码与可微光学流，该方法在面部细节保留和表达操作插值方面，相比VAE或基于流的基线模型，生成了更清晰、更逼真的结果。

ABSTRACT

High-level manipulation of facial expressions in images --- such as changing a smile to a neutral expression --- is challenging because facial expression changes are highly non-linear, and vary depending on the appearance of the face. We present a fully automatic approach to editing faces that combines the advantages of flow-based face manipulation with the more recent generative capabilities of Variational Autoencoders (VAEs). During training, our model learns to encode the flow from one expression to another over a low-dimensional latent space. At test time, expression editing can be done simply using latent vector arithmetic. We evaluate our methods on two applications: 1) single-image facial expression editing, and 2) facial expression interpolation between two images. We demonstrate that our method generates images of higher perceptual quality than previous VAE and flow-based methods.

研究动机与目标

解决图像中高层语义面部表情编辑的挑战，例如将微笑转换为中性表情。
克服VAE（生成结果模糊）和基于流的方法（缺乏用于语义操作的潜在空间）的局限性。
仅通过在解耦的、基于流的潜在空间中进行潜在向量算术运算，实现逼真且可控制的面部表情编辑与插值。
通过基于流的形变重用源图像特征，而非RGB幻觉生成，来保持高分辨率细节和真实纹理。

提出的方法

训练一种流变分自编码器（FVAE），在低维潜在空间中编码从源人脸图像到目标表情的流场。
解码器生成逐像素的流场和置信度掩码，利用可微双线性采样将源图像形变为目标表情。
使用复合损失函数优化FVAE：重建损失（L2像素差异）、先验损失（潜在空间平滑性）和流一致性损失。
通过潜在向量算术实现语义编辑：在不重新训练的情况下，插值或修改潜在码以生成新表情。
通过在应用到高分辨率源图像前上采样流场，实现基于流的上采样，从而保留精细细节。
使用光照和背景一致的受控数据集，以减少训练中非表情因素的干扰。

实验结果

研究问题

RQ1从面部表情之间的流场中学习到的潜在空间，是否能比直接基于VAE的图像生成，实现更逼真、更可控的语义编辑？
RQ2在解耦的潜在空间中基于流的形变，与传统形变或光学流相比，在感知质量与细节保留方面表现如何？
RQ3所学习的变换在面对具有不同图像统计特性的分布外样本时，泛化能力如何？
RQ4基于流的上采样是否比像素域上采样更好地保留更精细的面部纹理（如边缘、胡须纹理）？

主要发现

所提出的FVAE方法在感知质量上优于VAE和光学流基线模型，在用户研究中，59.4%的生成图像被标记为真实，显著高于VAE（35.6%）和光学流（41.6%）。
基于流的上采样能有效保留如边缘和胡须纹理等精细面部细节，生成结果比基于像素域的上采样更清晰，后者易导致模糊。
该方法实现了逼真的表情插值，能够在不同表情间实现连贯、自然的过渡，优于交叉淡入淡出和形变技术。
模型对未见身份和表情具有良好的泛化能力，在测试集图像统计特性与训练数据不同时，仍能保持真实感。
该方法通过基于流的形变重用源图像特征，避免了VAE中常见的幻觉问题，成功实现了高分辨率输出。
该方法目前仅限于正面人脸且小角度旋转的图像，因训练数据存在间隙，但通过引入更多样化的训练数据，具有扩展潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。