[论文解读] Generative Adversarial Talking Head: Bringing Portraits to Life with a Weakly Supervised Neural Network
本文提出GATH,一种弱监督生成对抗网络,通过直接使用动作单元(AU)系数操控图像像素,实现对静态肖像的动画化,无需模板或成对数据即可保持身份特征与面部细节。该模型在AU估计保真度方面达到最先进性能,并通过联合对抗训练框架实现身份与表情的解耦,从而实现无模板、无目标的面部表情编辑,该框架包含生成器、判别器、分类器和AU估计器。
This paper presents Generative Adversarial Talking Head (GATH), a novel deep generative neural network that enables fully automatic facial expression synthesis of an arbitrary portrait with continuous action unit (AU) coefficients. Specifically, our model directly manipulates image pixels to make the unseen subject in the still photo express various emotions controlled by values of facial AU coefficients, while maintaining her personal characteristics, such as facial geometry, skin color and hair style, as well as the original surrounding background. In contrast to prior work, GATH is purely data-driven and it requires neither a statistical face model nor image processing tricks to enact facial deformations. Additionally, our model is trained from unpaired data, where the input image, with its auxiliary identity label taken from abundance of still photos in the wild, and the target frame are from different persons. In order to effectively learn such model, we propose a novel weakly supervised adversarial learning framework that consists of a generator, a discriminator, a classifier and an action unit estimator. Our work gives rise to template-and-target-free expression editing, where still faces can be effortlessly animated with arbitrary AU coefficients provided by the user.
研究动机与目标
- 通过仅使用AU系数作为控制信号,实现从静态肖像自动、高保真度的面部表情合成。
- 克服先前方法依赖成对源-目标图像或统计人脸模型的局限性。
- 在未配对数据上进行训练,其中源图像与目标图像来自不同个体,通过AU估计和身份分类提供弱监督。
- 在单一端到端深度神经网络中实现身份与表情表征的解耦。
- 在不依赖3D网格或纹理变形的情况下,实现逼真、照片级真实的面部动画。
提出的方法
- 生成器网络学习基于输入AU系数将源肖像转换为新面部表情,直接操控图像像素。
- 判别器通过对抗训练区分真实与生成的面部图像,以强化照片级真实感。
- 分类器联合训练以识别生成面部的身份,确保表情变化过程中身份的一致性。
- 动作单元估计器(AUE)通过预测AU强度来度量合成帧与目标帧之间表达相似性,提供弱监督。
- 生成器、判别器和分类器共享隐藏层,实现身份与表情解耦的联合优化。
- 模型在未配对数据上进行训练:源图像带有身份标签,目标帧带有AU系数,从而实现跨身份的泛化能力。
实验结果
研究问题
- RQ1深度生成模型能否仅使用AU系数作为控制信号,从单张静态肖像中合成逼真面部表情?
- RQ2当训练数据由来自不同个体的未配对源图像与目标图像组成时,模型如何学习身份与表情的解耦?
- RQ3在不依赖成对数据或3D人脸模型的前提下,通过引入辅助分类器与AU估计的对抗训练,能否提升面部动画的保真度?
- RQ4模型在表情合成过程中,对身份特征(如面部几何、肤色、发型)的保持程度如何?
- RQ5模型能否实现无模板、无目标的表达编辑,包括对任意表情的中性化处理?
主要发现
- 完整GATH模型在联合测试集上的平均AU估计误差为0.477,优于基线模型GATH-DC(0.486)和GATH-C(0.481)。
- 在跨类别合成中,GATH的AU强度估计RMSE为0.579,优于GATH-C(0.583)和GATH-DC(0.587)。
- 定性结果表明,GATH能够成功生成复杂表情(如眨眼与闭唇),即使源图像非中性表情亦可实现。
- 表情抑制实验表明,输入零AU系数可生成中性表情,证实了身份与表情的成功解耦。
- 模型在多样化身份上具有泛化能力,如CelebA与LFW数据集样本所示,涵盖不同性别、肤色与发型。
- 尽管逼真度高,模型仍存在纹理动态范围损失及面部轮廓与边缘处的颜色噪声,表明仍有改进空间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。