QUICK REVIEW

[论文解读] Text2Video: Text-driven Talking-head Video Synthesis with Phonetic Dictionary

Sibo Zhang, Jiahong Yuan|arXiv (Cornell University)|Apr 29, 2021

Generative Adversarial Networks and Image Synthesis参考文献 11被引用 3

一句话总结

本文提出了一种基于音素-姿态字典和基于生成对抗网络（GAN）的生成器的文本到视频生成方法，用于生成说话头视频，能够在显著减少数据、训练和推理成本的前提下实现高保真度的视频合成。该方法在灵活性、效率和对说话人差异的鲁棒性方面优于当前最先进的音频驱动方法。

ABSTRACT

With the advance of deep learning technology, automatic video generation from audio or text has become an emerging and promising research topic. In this paper, we present a novel approach to synthesize video from the text. The method builds a phoneme-pose dictionary and trains a generative adversarial network (GAN) to generate video from interpolated phoneme poses. Compared to audio-driven video generation algorithms, our approach has a number of advantages: 1) It only needs a fraction of the training data used by an audio-driven approach; 2) It is more flexible and not subject to vulnerability due to speaker variation; 3) It significantly reduces the preprocessing, training and inference time. We perform extensive experiments to compare the proposed method with state-of-the-art talking face generation methods on a benchmark dataset and datasets of our own. The results demonstrate the effectiveness and superiority of our approach.

研究动机与目标

解决音频驱动说话人脸生成方法的局限性，例如对数据需求高以及对说话人差异敏感的问题。
开发一种减少对音频输入及其相关预处理依赖的文本驱动视频生成方法。
通过利用音素-姿态字典而非音频特征，提升训练和推理效率。
实现对不同说话人和输入文本均具有鲁棒性的高质量视频合成。

提出的方法

构建一个音素-姿态字典，将语言单位（音素）映射到相应的面部运动姿态。
训练一个条件生成对抗网络（cGAN），从基于音素-姿态字典插值生成的姿势中生成视频帧。
使用文本输入推断音素序列，随后将其映射为姿态嵌入以生成视频。
在视频合成过程中，通过音素姿态之间的插值生成平滑的过渡效果。
利用音素的解耦表示，将语言内容与说话人身份分离开来。
采用对抗训练以增强生成的说话头视频的真实感和时序一致性。

实验结果

研究问题

RQ1与音频驱动方法相比，文本驱动方法是否能在显著减少数据和计算成本的前提下实现相当或更优的视频质量？
RQ2音素-姿态字典在捕捉表达性说话头视频生成所需面部运动方面是否有效？
RQ3与基于音频的基线方法相比，所提方法在多大程度上降低了对说话人差异的敏感性？
RQ4与当前最先进的模型相比，该方法在推理速度和训练效率方面表现如何？
RQ5该方法能否在多样化文本输入上实现泛化，并在生成的视频中保持时序一致性？

主要发现

所提方法所需的训练数据仅为音频驱动方法所需数据的一小部分，显著降低了数据依赖性。
由于将语言内容与说话人特异性特征解耦，模型在说话人差异方面表现出更优的鲁棒性。
由于去除了音频特征提取和对齐步骤，训练和推理时间大幅减少。
在基准数据集和自定义数据集上的大量实验表明，该方法在视频质量和效率方面均优于当前最先进的音频驱动和文本驱动说话人脸生成模型。
使用音素-姿态字典可实现高保真度的视频合成，具备平滑的面部运动过渡和更优的时序一致性。
该方法在多样化文本输入上保持了强劲的性能，表明其具备良好的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。