Skip to main content
QUICK REVIEW

[论文解读] ObamaNet: Photo-realistic lip-sync from text

Rithesh Kumar, Jose Sotelo|arXiv (Cornell University)|Dec 6, 2017
Speech and Audio Processing参考文献 5被引用 85
一句话总结

ObamaNet 是一个可完全训练的架构,能够将输入文本转换为语音,并生成人物的照片级逼真嘴唇同步视频,在奥巴马视频上进行了演示。

ABSTRACT

We present ObamaNet, the first architecture that generates both audio and synchronized photo-realistic lip-sync videos from any new text. Contrary to other published lip-sync approaches, ours is only composed of fully trainable neural modules and does not rely on any traditional computer graphics methods. More precisely, we use three main modules: a text-to-speech network based on Char2Wav, a time-delayed LSTM to generate mouth-keypoints synced to the audio, and a network based on Pix2Pix to generate the video frames conditioned on the keypoints.

研究动机与目标

  • 旨在从任意文本生成语音和唇部同步视频。
  • 利用神经模块以避免传统计算机图形学方法。
  • 能够从带字幕的近距离说话视频进行训练。
  • 在逐帧层面实现与生成语音同步的口腔运动。

提出的方法

  • 基于 Char2Wav 的文本转语音模块,用于从输入文本合成语音。
  • 用时间延迟的 LSTM 根据音频特征预测口部关键点表示。
  • 对归一化的口部关键点进行 PCA,得到口型的紧凑表征。
  • 基于 Pix2Pix 的网络在口部关键点和口部轮廓的条件下进行视频生成。
  • 输入为带轮廓的裁剪嘴部区域;输出为带修复口部区域的全脸帧。
  • 训练依赖于像素空间重建的 L1 损失,而非GAN目标。

实验结果

研究问题

  • RQ1一个神经管线能否从任意文本同时生成语音和唇部同步的视频?
  • RQ2在不使用手动图形方法的情况下,神经方法在对齐嘴部运动与合成语音方面的效果如何?
  • RQ3在近距离说话视频集合上训练以泛化到新目标是否可行?
  • RQ4基于关键点的条件对生成真实嘴部运动的作用如何?

主要发现

  • 一个完全神经驱动的文本到视频系统通过三个模块实现:文本转语音(TTS)、口部关键点预测和视频修复。
  • 对关键点进行归一化并通过 PCA 降维,以捕捉与音频相关的口型动态的要点。
  • 视频生成网络在没有显式时间一致性损失的情况下使用 Pix2Pix,仍能实现逐帧连贯的口部运动。
  • 该方法可以在带有字幕的奥巴马视频数据上进行训练,以合成语音和同步的口部运动。
  • 每帧并行生成,条件化于口部关键点,并进行反归一化以适应目标视频场景。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。