Skip to main content
QUICK REVIEW

[论文解读] Speech-Driven Facial Reenactment Using Conditional Generative Adversarial Networks

Seyed Ali Jalalifar, Hosein Hasani|arXiv (Cornell University)|Mar 20, 2018
Face recognition and analysis参考文献 32被引用 24
一句话总结

本文提出了一种基于条件生成对抗网络(C-GANs)和双向长短期记忆网络(bidirectional LSTMs)的语音驱动面部重演系统,可从音频输入生成逼真且口型同步的面部视频。该方法首先利用双向LSTM从音频中预测嘴部关键点,然后通过C-GAN基于这些关键点生成逼真的面部图像,实现了高保真度、自然外观的说话头像,具备精确的同步效果和跨说话人之间的可迁移性。

ABSTRACT

We present a novel approach to generating photo-realistic images of a face with accurate lip sync, given an audio input. By using a recurrent neural network, we achieved mouth landmarks based on audio features. We exploited the power of conditional generative adversarial networks to produce highly-realistic face conditioned on a set of landmarks. These two networks together are capable of producing a sequence of natural faces in sync with an input audio track.

研究动机与目标

  • 开发一种灵活的端到端机器学习流程,从音频生成逼真说话头像,避免依赖复杂的计算机图形技术。
  • 解决音频到视频映射中口型同步的挑战,该挑战因一维到三维的映射关系以及人类对时间误差的高度敏感性而难以实现。
  • 克服传统基于图形的方法的局限性,例如难以生成逼真的牙齿,以及易引发恐怖谷效应。
  • 通过解耦音频驱动的关键点预测与面部生成过程,实现跨说话人的重演,使语音可从一个说话人迁移至另一个说话人的面部身份。
  • 通过利用条件GAN的流形学习能力以及语音上下文的双向建模,提升系统鲁棒性与视觉质量。

提出的方法

  • 训练一个双向LSTM网络,从音频特征中预测面部嘴部关键点,通过建模前后文音素,捕捉共音效应。
  • 使用条件生成对抗网络(C-GANs)生成以预测嘴部关键点为条件的高保真面部图像,保留面部纹理和背景信息。
  • 在训练后期阶段,将C-GAN在固定目标视频数据集上进行微调,以保持生成帧之间面部身份和纹理的一致性。
  • 系统将音频到关键点预测与图像生成解耦,支持独立优化,并可通过对源关键点进行简单仿射变换实现跨说话人重演。
  • 训练采用Adam优化器,并在验证集上最小化损失函数;同时应用先前GAN研究中的技术以减少视觉伪影。
  • 面部关键点通过Dlib面部关键点检测器提取,但该方法也兼容更精确的现代替代方案。

实验结果

研究问题

  • RQ1基于深度学习的系统能否在不依赖3D建模或合成技术的前提下,从原始音频生成逼真且口型同步的面部视频?
  • RQ2双向LSTM能否有效建模语音上下文,从而从音频中准确预测嘴部关键点,提升口型同步精度?
  • RQ3条件GAN能否仅基于嘴部关键点生成逼真的面部图像,同时保持身份特征与纹理一致性?
  • RQ4该系统在多大程度上能将语音从一个说话人成功迁移至另一说话人的面部身份上,同时保持视觉真实感与同步性?
  • RQ5系统的主要失败模式是什么?其与预测关键点和训练数据分布之间差异的关系如何?

主要发现

  • 与单向(0.93)和双层双向(0.84)变体相比,单层双向LSTM在300个训练周期时达到更低的验证损失(0.85),表明其性能最优。
  • 使用0.3和0.5的Dropout率可提升泛化能力,单层双向LSTM在100和200个训练周期时的验证损失分别为0.88和0.93。
  • C-GAN成功从预测的关键点生成了逼真的面部图像,通过在目标视频数据上微调进一步提升了视觉质量,有效保持了身份特征。
  • 系统成功实现了跨说话人重演,仅通过关键点变换即从希拉里·克林顿的音频生成了奥巴马总统的自然外观面部视频。
  • 失败案例主要源于预测关键点与训练分布之间存在较大偏差,尤其在极端头部姿态或非典型嘴部形状时更为明显。
  • 模块化设计允许独立优化音频到关键点与关键点到图像两个组件,支持灵活应用,如类似Dubsmash的面部替换功能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。