[论文解读] Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model
论文提出 MCDM,一种 Motion-Priors 条件扩散模型,结合归档与当前运动先验以及内存高效的时序注意力,在 TalkingFace 生成中实现稳定的身份保持与长期运动一致性,并发布 TalkingFace-Wild 数据集。
Recent advances in conditional diffusion models have shown promise for generating realistic TalkingFace videos, yet challenges persist in achieving consistent head movement, synchronized facial expressions, and accurate lip synchronization over extended generations. To address these, we introduce the extbf{M}otion-priors extbf{C}onditional extbf{D}iffusion extbf{M}odel ( extbf{MCDM}), which utilizes both archived and current clip motion priors to enhance motion prediction and ensure temporal consistency. The model consists of three key elements: (1) an archived-clip motion-prior that incorporates historical frames and a reference frame to preserve identity and context; (2) a present-clip motion-prior diffusion model that captures multimodal causality for accurate predictions of head movements, lip sync, and expressions; and (3) a memory-efficient temporal attention mechanism that mitigates error accumulation by dynamically storing and updating motion features. We also release the extbf{TalkingFace-Wild} dataset, a multilingual collection of over 200 hours of footage across 10 languages. Experimental results demonstrate the effectiveness of MCDM in maintaining identity and motion continuity for long-term TalkingFace generation. Code, models, and datasets will be publicly available.
研究动机与目标
- 解决 TalkingFace 生成中的长期身份保持与运动一致性问题。
- 利用历史(归档)和当前(当前)运动先验来为扩散式生成提供信息。
- 提出内存高效的时序注意力,以减缓长序列中的误差累积。
- 提供一个高质量的多语言 TalkingFace 数据集,以支持该领域的研究。
提出的方法
- 引入归档剪辑(archived-clip)运动先验模块,聚合长期历史并进行帧对齐注意力,以增强身份上下文。
- 提出当前剪辑(present-clip)运动先验扩散模型,通过多模态因果性(可用时的音频、图像、地标)对头部、嘴部和表情运动进行解耦预测。
- 结合基于 FiLM 的多模态条件化以及带有归档与当前先验的扩散去噪框架,采用具有跨注意力的 L 层变换器结构。
- 开发内存高效的时序注意力,更新运动记忆 M_f 并使用快速注意力来减少长序列中的误差累积。
- 分三阶段训练,分别学习归档先验、当前先验和完整运动先验,调控时可选择地使用地标信息进行条件化。
- 发布 TalkingFace-Wild,覆盖 10 个语言、总时长超过 200 小时的多语言数据集,用于基准测试与研究。

实验结果
研究问题
- RQ1如何利用归档与当前剪辑的运动先验来提升长期 TalkingFace 生成?
- RQ2在不牺牲真实感的前提下,内存高效的时序机制是否能降低扩散式长序列中的误差累积?
- RQ3通过多模态先验实现身份与运动的解耦,是否能在长视频中提升嘴型对齐与面部表情的真实感?
- RQ4在运动先验扩散中,地标引导与音频驱动条件的影响如何?
- RQ5相较于现有方法,所提出的 MCDM 在多样化的多语言数据集上的表现如何?
主要发现
- MCDM 在 HDTF 与 CelebV-HQ 的定量表现上处于领先地位,在 FID、FVD、Sync-C、Sync-D、SSIM、E-FID 等标准基准上优于前沿的扩散与 GAN 方法。
- 在 TalkingFace-Wild 数据集上,MCDM 获得最佳 FID(26.45)、FVD(543.28)、Sync-C(7.84)、Sync-D(8.04)、SSIM(0.824)与 E-FID(1.97),在列出的方法中表现最好。
- MCDM 在 Sync-C 上达到最强,同时在 Sync-D 上具有竞争力,表明在嘴部同步与时序连贯性方面有提升。
- 消融研究显示,去除归档剪辑信息或当前剪辑扩散会降低身份、运动准确性与时序稳定性。
- 内存高效的时序注意力相较于标准时序注意力,减少了误差累积并提升了长期一致性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。