[论文解读] Semantic Facial Expression Editing using Autoencoded Flow
本文提出一种流变分自编码器(FVAE),通过在解耦的潜在空间中学习逐像素的流场,实现了高质量、语义化的面部表情编辑。通过结合变分自编码与可微光学流,该方法在面部细节保留和表达操作插值方面,相比VAE或基于流的基线模型,生成了更清晰、更逼真的结果。
High-level manipulation of facial expressions in images --- such as changing a smile to a neutral expression --- is challenging because facial expression changes are highly non-linear, and vary depending on the appearance of the face. We present a fully automatic approach to editing faces that combines the advantages of flow-based face manipulation with the more recent generative capabilities of Variational Autoencoders (VAEs). During training, our model learns to encode the flow from one expression to another over a low-dimensional latent space. At test time, expression editing can be done simply using latent vector arithmetic. We evaluate our methods on two applications: 1) single-image facial expression editing, and 2) facial expression interpolation between two images. We demonstrate that our method generates images of higher perceptual quality than previous VAE and flow-based methods.
研究动机与目标
- 解决图像中高层语义面部表情编辑的挑战,例如将微笑转换为中性表情。
- 克服VAE(生成结果模糊)和基于流的方法(缺乏用于语义操作的潜在空间)的局限性。
- 仅通过在解耦的、基于流的潜在空间中进行潜在向量算术运算,实现逼真且可控制的面部表情编辑与插值。
- 通过基于流的形变重用源图像特征,而非RGB幻觉生成,来保持高分辨率细节和真实纹理。
提出的方法
- 训练一种流变分自编码器(FVAE),在低维潜在空间中编码从源人脸图像到目标表情的流场。
- 解码器生成逐像素的流场和置信度掩码,利用可微双线性采样将源图像形变为目标表情。
- 使用复合损失函数优化FVAE:重建损失(L2像素差异)、先验损失(潜在空间平滑性)和流一致性损失。
- 通过潜在向量算术实现语义编辑:在不重新训练的情况下,插值或修改潜在码以生成新表情。
- 通过在应用到高分辨率源图像前上采样流场,实现基于流的上采样,从而保留精细细节。
- 使用光照和背景一致的受控数据集,以减少训练中非表情因素的干扰。
实验结果
研究问题
- RQ1从面部表情之间的流场中学习到的潜在空间,是否能比直接基于VAE的图像生成,实现更逼真、更可控的语义编辑?
- RQ2在解耦的潜在空间中基于流的形变,与传统形变或光学流相比,在感知质量与细节保留方面表现如何?
- RQ3所学习的变换在面对具有不同图像统计特性的分布外样本时,泛化能力如何?
- RQ4基于流的上采样是否比像素域上采样更好地保留更精细的面部纹理(如边缘、胡须纹理)?
主要发现
- 所提出的FVAE方法在感知质量上优于VAE和光学流基线模型,在用户研究中,59.4%的生成图像被标记为真实,显著高于VAE(35.6%)和光学流(41.6%)。
- 基于流的上采样能有效保留如边缘和胡须纹理等精细面部细节,生成结果比基于像素域的上采样更清晰,后者易导致模糊。
- 该方法实现了逼真的表情插值,能够在不同表情间实现连贯、自然的过渡,优于交叉淡入淡出和形变技术。
- 模型对未见身份和表情具有良好的泛化能力,在测试集图像统计特性与训练数据不同时,仍能保持真实感。
- 该方法通过基于流的形变重用源图像特征,避免了VAE中常见的幻觉问题,成功实现了高分辨率输出。
- 该方法目前仅限于正面人脸且小角度旋转的图像,因训练数据存在间隙,但通过引入更多样化的训练数据,具有扩展潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。