[论文解读] You said that
本文提出了一种实时、端到端的深度学习方法,通过单张图像和音频片段生成高保真度的说话人脸视频,采用基于CNN的编码器-解码器架构,在无标签视频数据上训练联合人脸-音频嵌入表示。该模型可泛化至未见过的人脸和音频,实现零样本推理,并成功实现不同说话人之间的配音重制。
We present a method for generating a video of a talking face. The method takes as inputs: (i) still images of the target face, and (ii) an audio speech segment; and outputs a video of the target face lip synched with the audio. The method runs in real time and is applicable to faces and audio not seen at training time. To achieve this we propose an encoder-decoder CNN model that uses a joint embedding of the face and audio to generate synthesised talking face video frames. The model is trained on tens of hours of unlabelled videos. We also show results of re-dubbing videos using speech from a different person.
研究动机与目标
- 开发一种从单张图像和音频输入生成逼真说话人脸视频的方法。
- 实现实时推理,而无需为新的人脸或音频重新训练模型。
- 在训练过程中未见过的人脸和语音输入上实现零样本泛化。
- 证明使用不同说话人语音对现有视频进行配音的可行性。
提出的方法
- 使用卷积神经网络(CNN)编码器-解码器架构,从输入的人脸图像和音频片段生成视频帧。
- 模型采用联合嵌入空间,同时编码面部外观和音频特征,以实现唇部动作与语音的同步。
- 在数十小时的无标签视频数据上进行训练,实现无需显式人脸关键点或语音-文本对齐的自监督学习。
- 该架构设计轻量化且高效,支持在消费级硬件上实现实时推理。
- 模型使用内容感知损失,以在生成帧之间保持身份特征和面部细节。
- 音频特征通过专用前端提取,联合嵌入驱动解码器生成身份一致且唇部同步的帧。
实验结果
研究问题
- RQ1单图像、音频驱动的说话人脸视频生成模型是否能在不为新身份重新训练的情况下实现实时推理?
- RQ2模型在训练过程中未见过的人脸和语音输入上的泛化能力如何?
- RQ3模型在生成逼真唇部动作的同时,能在多大程度上保持身份特征和面部细节?
- RQ4模型是否能成功地使用不同说话人的语音对现有视频进行配音?
主要发现
- 该模型即使在训练过程中未见过的人脸和音频输入下,也能实现实时生成高保真度的说话人脸视频。
- 该方法在无需对新身份进行微调的情况下,实现了出色的视觉质量和精确的唇部同步。
- 模型能有效泛化至未见过的说话人和面部身份,展现出零样本能力。
- 配音实验表明,该模型能够令人信服地用新音频替换现有视频中的语音,同时保持面部身份一致性和唇部同步。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。