QUICK REVIEW

[论文解读] Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation

Hang Zhou, Yasheng Sun|arXiv (Cornell University)|Apr 22, 2021

Face recognition and analysis参考文献 77被引用 24

一句话总结

本文提出 PC-AVS，一种可控姿态、由音频驱动的说话人脸生成框架，使用隐式低维姿态码和模块化的音视频表示，以实现从单独的姿态源视频中进行姿态控制，而不依赖结构中间表示。

ABSTRACT

While accurate lip synchronization has been achieved for arbitrary-subject audio-driven talking face generation, the problem of how to efficiently drive the head pose remains. Previous methods rely on pre-estimated structural information such as landmarks and 3D parameters, aiming to generate personalized rhythmic movements. However, the inaccuracy of such estimated information under extreme conditions would lead to degradation problems. In this paper, we propose a clean yet effective framework to generate pose-controllable talking faces. We operate on raw face images, using only a single photo as an identity reference. The key is to modularize audio-visual representations by devising an implicit low-dimension pose code. Substantially, both speech content and head pose information lie in a joint non-identity embedding space. While speech content information can be defined by learning the intrinsic synchronization between audio-visual modalities, we identify that a pose code will be complementarily learned in a modulated convolution-based reconstruction framework. Extensive experiments show that our method generates accurately lip-synced talking faces whose poses are controllable by other videos. Moreover, our model has multiple advanced capabilities including extreme view robustness and talking face frontalization. Code, models, and demo videos are available at https://hangz-nju-cuhk.github.io/projects/PC-AVS.

研究动机与目标

在音频驱动的说话脸生成中激发/实现自由头部姿态控制。
通过学习一个低维姿态码来消除对显式的二维/三维结构中介的依赖。
在一个隐式、数据驱动的框架中解耦身份、语音内容和姿态。
在实现稳健口型同步的同时，允许从独立视频源进行姿态迁移。

提出的方法

通过对目标帧进行有针对性的数据增强来识别一个非身份特征空间，以捕捉与姿态相关的变化。
将音视频信息模块化为三个空间：语音内容、头部姿态和身份。
通过视觉和音频特征之间的对比学习（InfoNCE）学习带有音视频同步的语音内容。
定义一个来自最小的3D姿态先验的隐式12维姿态码，并将非身份特征映射到该姿态空间。
使用基于调制卷积的生成器，其中卷积权重由来自身份、语音内容和姿态特征的拼接潜在码动态缩放。
通过对抗、重建（L1）、感知（VGG）和跨模态对比损失的组合进行训练，以加强模块化与姿态对齐。
在生成过程中通过身份和语音内容空间驱动口形，同时通过姿态源视频控制头部姿态来推断姿态。

实验结果

研究问题

RQ1在说话脸生成中是否可以在不进行显式3D姿态估计或关键点的情况下实现姿态控制？
RQ2一个低维、隐式的姿态码是否足以调制头部运动同时保持口型同步？
RQ3是否可以将一个视频源的姿态转移以驱动由音频驱动的另一身份的说话脸？
RQ4将身份、语音内容和姿态模块化是否在极端视角下提升口型同步性和鲁棒性？

主要发现

方法	SSIM LRW↑	CPBD LRW↑	LMD LRW↓	Sync_conf LRW↑	SSIM VoxCeleb2↑	CPBD VoxCeleb2↑	LMD VoxCeleb2↓	Sync_conf VoxCeleb2↑
ATVG	0.810	0.102	5.25	4.1	0.826	0.061	6.49	4.3
Wav2Lip	0.862	0.152	5.73	6.9	0.846	0.078	12.26	4.5
MakeitTalk	0.796	0.161	7.13	3.1	0.817	0.068	31.44	2.8
Rhythmic Head	-	-	-	-	0.779	0.802	14.76	3.8
Ground Truth	1.000	0.173	0.00	5.9	1.000	0.090	0.00	5.9
Ours-Fix Pose	0.815	0.180	6.14	6.3	0.820	0.084	7.68	5.8
PC-AVS (Ours)	0.861	0.185	3.93	6.4	0.886	0.083	6.88	5.9

该方法在实现口型同步的同时能够从姿态源视频实现姿态控制。
在 LRW 上，PC-AVS 在口型同步和图像质量方面达到或超过基线；在 VoxCeleb2 上，显示出强大的口型同步和姿态控制性能。
该方法具有极端视角鲁棒性，通过将姿态码设为零可以实现人脸正面化。
消融研究显示对比音视频同步损失和12维姿态码对于成功的姿态控制的重要性。
用户研究表明，与若干基线相比，PC-AVS在头部运动自然度和视频真实感方面更高。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。