Skip to main content
QUICK REVIEW

[论文解读] Semantic Facial Expression Editing using Autoencoded Flow

Raymond A. Yeh, Ziwei Liu|arXiv (Cornell University)|Nov 30, 2016
Generative Adversarial Networks and Image Synthesis参考文献 27被引用 69
一句话总结

本文提出一种流变分自编码器(FVAE),通过在解耦的潜在空间中学习逐像素的流场,实现了高质量、语义化的面部表情编辑。通过结合变分自编码与可微光学流,该方法在面部细节保留和表达操作插值方面,相比VAE或基于流的基线模型,生成了更清晰、更逼真的结果。

ABSTRACT

High-level manipulation of facial expressions in images --- such as changing a smile to a neutral expression --- is challenging because facial expression changes are highly non-linear, and vary depending on the appearance of the face. We present a fully automatic approach to editing faces that combines the advantages of flow-based face manipulation with the more recent generative capabilities of Variational Autoencoders (VAEs). During training, our model learns to encode the flow from one expression to another over a low-dimensional latent space. At test time, expression editing can be done simply using latent vector arithmetic. We evaluate our methods on two applications: 1) single-image facial expression editing, and 2) facial expression interpolation between two images. We demonstrate that our method generates images of higher perceptual quality than previous VAE and flow-based methods.

研究动机与目标

  • 解决图像中高层语义面部表情编辑的挑战,例如将微笑转换为中性表情。
  • 克服VAE(生成结果模糊)和基于流的方法(缺乏用于语义操作的潜在空间)的局限性。
  • 仅通过在解耦的、基于流的潜在空间中进行潜在向量算术运算,实现逼真且可控制的面部表情编辑与插值。
  • 通过基于流的形变重用源图像特征,而非RGB幻觉生成,来保持高分辨率细节和真实纹理。

提出的方法

  • 训练一种流变分自编码器(FVAE),在低维潜在空间中编码从源人脸图像到目标表情的流场。
  • 解码器生成逐像素的流场和置信度掩码,利用可微双线性采样将源图像形变为目标表情。
  • 使用复合损失函数优化FVAE:重建损失(L2像素差异)、先验损失(潜在空间平滑性)和流一致性损失。
  • 通过潜在向量算术实现语义编辑:在不重新训练的情况下,插值或修改潜在码以生成新表情。
  • 通过在应用到高分辨率源图像前上采样流场,实现基于流的上采样,从而保留精细细节。
  • 使用光照和背景一致的受控数据集,以减少训练中非表情因素的干扰。

实验结果

研究问题

  • RQ1从面部表情之间的流场中学习到的潜在空间,是否能比直接基于VAE的图像生成,实现更逼真、更可控的语义编辑?
  • RQ2在解耦的潜在空间中基于流的形变,与传统形变或光学流相比,在感知质量与细节保留方面表现如何?
  • RQ3所学习的变换在面对具有不同图像统计特性的分布外样本时,泛化能力如何?
  • RQ4基于流的上采样是否比像素域上采样更好地保留更精细的面部纹理(如边缘、胡须纹理)?

主要发现

  • 所提出的FVAE方法在感知质量上优于VAE和光学流基线模型,在用户研究中,59.4%的生成图像被标记为真实,显著高于VAE(35.6%)和光学流(41.6%)。
  • 基于流的上采样能有效保留如边缘和胡须纹理等精细面部细节,生成结果比基于像素域的上采样更清晰,后者易导致模糊。
  • 该方法实现了逼真的表情插值,能够在不同表情间实现连贯、自然的过渡,优于交叉淡入淡出和形变技术。
  • 模型对未见身份和表情具有良好的泛化能力,在测试集图像统计特性与训练数据不同时,仍能保持真实感。
  • 该方法通过基于流的形变重用源图像特征,避免了VAE中常见的幻觉问题,成功实现了高分辨率输出。
  • 该方法目前仅限于正面人脸且小角度旋转的图像,因训练数据存在间隙,但通过引入更多样化的训练数据,具有扩展潜力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。