[论文解读] End-to-End Speech-Driven Facial Animation with Temporal GANs
本论文提出一个端到端的时序GAN,可以直接从原始音频和单张静态图像生成与主体无关的说话头视频,实现同步的口型运动和自然的面部表情,无需手工特征。
Speech-driven facial animation is the process which uses speech signals to automatically synthesize a talking character. The majority of work in this domain creates a mapping from audio features to visual features. This often requires post-processing using computer graphics techniques to produce realistic albeit subject dependent results. We present a system for generating videos of a talking head, using a still image of a person and an audio clip containing speech, that doesn't rely on any handcrafted intermediate features. To the best of our knowledge, this is the first method capable of generating subject independent realistic videos directly from raw audio. Our method can generate videos which have (a) lip movements that are in sync with the audio and (b) natural facial expressions such as blinks and eyebrow movements. We achieve this by using a temporal GAN with 2 discriminators, which are capable of capturing different aspects of the video. The effect of each component in our system is quantified through an ablation study. The generated videos are evaluated based on their sharpness, reconstruction quality, and lip-reading accuracy. Finally, a user study is conducted, confirming that temporal GANs lead to more natural sequences than a static GAN-based approach.
研究动机与目标
- 展示一个端到端系统,将原始音频和静态图像转换为真实的、可说话的头部视频且不使用手工特征。
- 不仅捕捉唇同步,还通过时序建模捕捉自然面部表情(眨眼、皱眉)。
- 确保主体无关性,使新身份可以在不重新训练的情况下实现动画。
- 评估视频质量、口型识别准确性、身份保留和用户感知的真实感。
- 通过消融研究评估时序组件的贡献,并与静态基线进行比较。
提出的方法
- 使用一个生成器,包含身份编码器、上下文(音频)编码器、帧解码器和噪声生成器来生成视频帧。
- 引入两个判别器:一个帧判别器用于强化每帧的真实身份,一个序列判别器用于强化连贯且与音频同步的序列。
- 通过来自两个判别器的对抗损失,加上仅对人脸下半部的L1重建损失以保留表情。
- 采用基于RNN的生成器以处理适合实时生成的可变长度序列。
- 使用U-Net风格的帧解码器并带跳跃连接以保持身份。
- 在GRID和TCD-TIMIT数据集上使用PSNR、SSIM、FDBM、CPBD、ACD(身份)和WER(口型识别)进行评估。
实验结果
研究问题
- RQ1原始音频是否可以在不使用手工特征或后处理的情况下直接转换为现实的说话头视频?
- RQ2具有单独帧判别器和序列判别器的时序GAN是否比静态基线产生更自然、同步的面部运动?
- RQ3模型是否能够在保持面部身份和准确口型同步的同时对未见身份进行泛化?
- RQ4各组成部分(帧判别器、序列判别器、L1损失)对重建质量、清晰度和口型识别准确性有何影响?
- RQ5在基于用户的真实感评估(测试图灵测试)中,生成的视频是否具有说服力?
主要发现
- 所提出的模型在帧质量方面表现突出(在GRID上PSNR 27.98,SSIM 0.844),清晰度高(FDBM 0.114,CPBD 0.277),身份保留(ACD 1.02e-4),在GRID上WER更低为25.4%,相较基线。
- 消融显示L1损失提高了PSNR/SSIM,但可能降低身份保真度;加入Adv_img提升清晰度;再加入Adv_seq进一步提升口型识别准确性(GRID上的WER 25.45%)。
- 具有双判别器的时序GAN比静态基线产生更连贯的序列且口型识别准确性更高(GRID WER 25.4% vs 37.2%;ACD相似)。
- 基于口型识别的WER和人脸验证的ACD表明在完整时序模型下对说话内容的准确性和身份保留更好。
- 在GRID和TCD-TIMIT上的主体无关评估表明模型能够对未见人脸进行自然表情的动画,如眨眼和皱眉。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。