[论文解读] MIRRORTALK: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control
MirrorTalk 使用语义解耦风格编码器与时空分层扩散调制来合成个性化的说话人脸,具备准确的唇部同步与保留说话人风格。
Synthesizing personalized talking faces that uphold and highlight a speaker's unique style while maintaining lip-sync accuracy remains a significant challenge. A primary limitation of existing approaches is the intrinsic confounding of speaker-specific talking style and semantic content within facial motions, which prevents the faithful transfer of a speaker's unique persona to arbitrary speech. In this paper, we propose MirrorTalk, a generative framework based on a conditional diffusion model, combined with a Semantically-Disentangled Style Encoder (SDSE) that can distill pure style representations from a brief reference video. To effectively utilize this representation, we further introduce a hierarchical modulation strategy within the diffusion process. This mechanism guides the synthesis by dynamically balancing the contributions of audio and style features across distinct facial regions, ensuring both precise lip-sync accuracy and expressive full-face dynamics. Extensive experiments demonstrate that MirrorTalk achieves significant improvements over state-of-the-art methods in terms of lip-sync accuracy and personalization preservation.
研究动机与目标
- 需要在保持口型同步精度的同时,生成个性化的说话脸并保留说话人特定风格。
- 提出一种语义解耦风格编码器(SDSE),从简短参考视频中提取纯粹风格。
- 在扩散中引入时空分层调制,跨脸部区域按条件融合音频与风格。
- 证明从内容中解耦风格可提升口型同步保真度与角色人格的保持。
- 在定量与定性方面与最先进方法进行广泛比较。
提出的方法
- 提出一个两阶段训练框架,从简短参考视频中学习语义解耦风格编码器(SDSE)。
- 使用带有运动专家的跨模态监督机制,使音频语义与视觉线索对齐。
- 通过解耦损失、基于HSIC的独立性正则项以及三元组损失来训练SDSE,获得对说话人可辨别但对内容无关的风格表示。
- 在扩散变换器(DiT)中应用时空分层调制,在每个时间步动态平衡上部(风格主导)与下部(音频主导)脸部区域的音频与风格特征。
- 编码器估计几何参数的3D FLAME;神经渲染器从生成的运动和人像图像合成最终视频帧。
- 使用 CREMA-D、HDTF、VoxCeleb2 派生合成数据在 SSIM、FID、M-LMD、F-LMD、Sync_conf 和 StyleSim 进行评估。
实验结果
研究问题
- RQ1是否能够从简短参考视频中提取语义解耦的风格表征,以捕捉与内容无关的说话风格?
- RQ2区域感知的分层扩散条件策略是否能在保持个性化面部动态的同时提升口型同步准确性?
- RQ3在口型同步保真度与人格保持方面,MirrorTalk 相较于最先进方法在不同数据集的表现如何?
- RQ4每个组件(记忆库、解耦模块、三元组损失、分层尺度)对整体性能的影响是什么?
主要发现
| Method | SSIM (CREMA-D) | FID (CREMA-D) | M-LMD (CREMA-D) | F-LMD (CREMA-D) | Sync_conf (CREMA-D) | StyleSim (CREMA-D) | SSIM (HDTF) | FID (HDTF) | M-LMD (HDTF) | F-LMD (HDTF) | Sync_conf (HDTF) | StyleSim (HDTF) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Wav2Lip | 0.725 | 32.461 | 3.025 | 3.476 | 4.384 | 0.826 | 0.618 | 38.744 | 4.121 | 4.040 | 3.762 | 0.841 |
| EAMM | 0.414 | 37.296 | 6.630 | 6.819 | 1.545 | 0.788 | 0.396 | 42.158 | 6.019 | 7.135 | 1.204 | 0.805 |
| SadTalker | 0.762 | 15.135 | 4.143 | 2.804 | 2.676 | 0.851 | 0.664 | 20.514 | 3.559 | 2.926 | 2.232 | 0.862 |
| AniTalker | 0.726 | 16.141 | 5.742 | 4.052 | 1.926 | 0.730 | 0.593 | 25.259 | 6.413 | 4.547 | 2.763 | 0.724 |
| Echomimic | 0.912 | 28.506 | 4.006 | 2.612 | 3.461 | 0.852 | 0.879 | 31.243 | 3.681 | 2.851 | 2.689 | 0.866 |
| V-Express | 0.708 | 18.074 | 4.906 | 4.868 | 2.130 | 0.834 | 0.651 | 24.061 | 5.706 | 5.001 | 1.593 | 0.845 |
| Ours | 0.917 | 16.293 | 2.771 | 1.824 | 4.106 | 0.937 | 0.890 | 21.682 | 2.481 | 2.122 | 3.811 | 0.958 |
| Ground Truth | 1.000 | 0.000 | 0.000 | 0.000 | 4.531 | 0.942 | 1.000 | 0.000 | 0.000 | 0.000 | 3.962 | 0.969 |
- 在 CREMA-D 与 HDTF 的口型同步准确性与人格保持方面超过最先进基线。
- SDSE 产生了与语义内容解耦的纯风格表征,提升 StyleSim 与口型同步指标。
- 分层调制提高了下半脸(嘴部)的准确性与上半脸动态,提升了 Sync_conf 与 StyleSim。
- 消融研究显示记忆库、解耦模块、三元组损失与分层尺度对于最佳结果是必需的。
- 定性结果显示相比基线,具有更自然、说话人特异性的表情和口型运动。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。