QUICK REVIEW

[论文解读] ObamaNet: Photo-realistic lip-sync from text

Rithesh Kumar, Jose Sotelo|arXiv (Cornell University)|Dec 6, 2017

Speech and Audio Processing参考文献 5被引用 85

一句话总结

ObamaNet 是一个可完全训练的架构，能够将输入文本转换为语音，并生成人物的照片级逼真嘴唇同步视频，在奥巴马视频上进行了演示。

ABSTRACT

We present ObamaNet, the first architecture that generates both audio and synchronized photo-realistic lip-sync videos from any new text. Contrary to other published lip-sync approaches, ours is only composed of fully trainable neural modules and does not rely on any traditional computer graphics methods. More precisely, we use three main modules: a text-to-speech network based on Char2Wav, a time-delayed LSTM to generate mouth-keypoints synced to the audio, and a network based on Pix2Pix to generate the video frames conditioned on the keypoints.

研究动机与目标

旨在从任意文本生成语音和唇部同步视频。
利用神经模块以避免传统计算机图形学方法。
能够从带字幕的近距离说话视频进行训练。
在逐帧层面实现与生成语音同步的口腔运动。

提出的方法

基于 Char2Wav 的文本转语音模块，用于从输入文本合成语音。
用时间延迟的 LSTM 根据音频特征预测口部关键点表示。
对归一化的口部关键点进行 PCA，得到口型的紧凑表征。
基于 Pix2Pix 的网络在口部关键点和口部轮廓的条件下进行视频生成。
输入为带轮廓的裁剪嘴部区域；输出为带修复口部区域的全脸帧。
训练依赖于像素空间重建的 L1 损失，而非GAN目标。

实验结果

研究问题

RQ1一个神经管线能否从任意文本同时生成语音和唇部同步的视频？
RQ2在不使用手动图形方法的情况下，神经方法在对齐嘴部运动与合成语音方面的效果如何？
RQ3在近距离说话视频集合上训练以泛化到新目标是否可行？
RQ4基于关键点的条件对生成真实嘴部运动的作用如何？

主要发现

一个完全神经驱动的文本到视频系统通过三个模块实现：文本转语音（TTS）、口部关键点预测和视频修复。
对关键点进行归一化并通过 PCA 降维，以捕捉与音频相关的口型动态的要点。
视频生成网络在没有显式时间一致性损失的情况下使用 Pix2Pix，仍能实现逐帧连贯的口部运动。
该方法可以在带有字幕的奥巴马视频数据上进行训练，以合成语音和同步的口部运动。
每帧并行生成，条件化于口部关键点，并进行反归一化以适应目标视频场景。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。