Skip to main content
QUICK REVIEW

[论文解读] Video-Driven Animation of Neural Head Avatars

Wolfgang Paier, Paul Hinzer|arXiv (Cornell University)|Jan 1, 2023
Human Motion and Animation被引用 3
一句话总结

本文提出了一种基于视频驱动的动画方法,用于生成高质量的神经3D人头虚拟形象,通过单一人物训练的模型实现与人物无关的动画。通过从单目视频中提取与人物无关的表情特征,并采用基于LSTM的动画网络结合学习到的残差特征,该方法能够从任意演员的视频输入中生成逼真且无伪影的个性化头像动画,在视觉质量和自然度方面优于近期方法。

ABSTRACT

We present a new approach for video-driven animation of high-quality neural 3D head models, addressing the challenge of person-independent animation from video input. Typically, high-quality generative models are learned for specific individuals from multi-view video footage, resulting in person-specific latent representations that drive the generation process. In order to achieve person-independent animation from video input, we introduce an LSTM-based animation network capable of translating person-independent expression features into personalized animation parameters of person-specific 3D head models. Our approach combines the advantages of personalized head models (high quality and realism) with the convenience of video-driven animation employing multi-person facial performance capture.We demonstrate the effectiveness of our approach on synthesized animations with high quality based on different source videos as well as an ablation study.

研究动机与目标

  • 实现无需为每个主体重新训练的、从任意视频输入中生成高质量、逼真3D头像动画。
  • 克服现有基于人物特定的神经头像模型需为每个人单独收集训练数据的局限性。
  • 弥合高保真个性化头像与灵活、多人物视频驱动动画之间的差距。
  • 通过解耦源表情特征与目标动画参数之间的映射关系,提升动画质量和鲁棒性。

提出的方法

  • 使用Feng等人 [FFBB21] 的方法从单目视频中提取与主体无关的表情特征。
  • 采用基于LSTM的动画网络,从输入的表情特征预测个性化动画参数,利用时间上下文实现更平滑的运动。
  • 通过引入学习到的残差向量来增强输入的表情特征,以提高源特征空间与目标动画参数空间之间映射的准确性。
  • 使用结合3D网格几何、动态纹理和神经渲染的混合神经头像模型,实现照片级真实的视觉效果。
  • 使用单人数据集进行动画网络训练,从而在部署阶段可对任意演员进行推理。
  • 在推理过程中应用零残差特征向量,以保持泛化能力并避免对人工特征的过拟合。

实验结果

研究问题

  • RQ1是否可以使用单一人物训练的神经头像模型,有效实现对任意人物视频输入的动画驱动?
  • RQ2如何通过解耦方式消除人物无关表情特征与人物特定动画参数之间映射的模糊性,以提升动画质量?
  • RQ3通过LSTM进行时间建模在提升视频驱动面部动画的真实感和流畅度方面有何影响?
  • RQ4学习到的残差特征在多大程度上提升了动画网络的泛化能力和鲁棒性?
  • RQ5与近期最先进的视频驱动面部重演方法相比,所提方法在视觉质量和伪影减少方面表现如何?

主要发现

  • 基于LSTM的动画网络在生成逼真且时间一致的动画方面优于MLP和CNN基线模型。
  • 在ResNet50提取的表情特征基础上引入学习到的残差向量,可生成更生动自然的动画,同时减少伪影。
  • 与DAGAN、LIA和FADM相比,该方法在视觉质量上表现更优,渲染伪影更少,面部细节更清晰。
  • 使用8帧的短输入序列即可提供最优的时间上下文,且不会降低动画质量。
  • 残差特征增强有助于网络避免学习输入特征与动画参数之间的虚假相关性。
  • 该方法可利用任意演员的视频输入实现个性化神经头像的高质量动画,展现出超越训练主体的强泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。