[论文解读] DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning
DreamActor-M2 提出一个通用的角色动画框架,利用时空上下文学习将驱动视频的动作传 transfer 给参考图像,实现端到端的 RGB 驱动动画,并在多样对象上具有强泛化能力。
Character image animation aims to synthesize high-fidelity videos by transferring motion from a driving sequence to a static reference image. Despite recent advancements, existing methods suffer from two fundamental challenges: (1) suboptimal motion injection strategies that lead to a trade-off between identity preservation and motion consistency, manifesting as a "see-saw", and (2) an over-reliance on explicit pose priors (e.g., skeletons), which inadequately capture intricate dynamics and hinder generalization to arbitrary, non-humanoid characters. To address these challenges, we present DreamActor-M2, a universal animation framework that reimagines motion conditioning as an in-context learning problem. Our approach follows a two-stage paradigm. First, we bridge the input modality gap by fusing reference appearance and motion cues into a unified latent space, enabling the model to jointly reason about spatial identity and temporal dynamics by leveraging the generative prior of foundational models. Second, we introduce a self-bootstrapped data synthesis pipeline that curates pseudo cross-identity training pairs, facilitating a seamless transition from pose-dependent control to direct, end-to-end RGB-driven animation. This strategy significantly enhances generalization across diverse characters and motion scenarios. To facilitate comprehensive evaluation, we further introduce AW Bench, a versatile benchmark encompassing a wide spectrum of characters types and motion scenarios. Extensive experiments demonstrate that DreamActor-M2 achieves state-of-the-art performance, delivering superior visual fidelity and robust cross-domain generalization. Project Page: https://grisoon.github.io/DreamActor-M2/
研究动机与目标
- 在角色动画中权衡身份保留与动作保真之间的权衡。
- 减少对显式姿态先验的依赖,以提高对非人形角色的泛化能力。
- 引入时空上下文的运动条件化机制。
- 从基于姿态的 DreamActor-M2 向端到端 RGB 驱动动画的自举式训练管线演进。
- 提供 AW Bench 用于评估广域角色与运动多样性。
提出的方法
- 以潜在扩散模型骨干(Seedance 1.0 结合 MMDiT)用于视频生成。
- 通过将参考外观和驱动帧拼接为统一输入序列,实现时空上下文的运动条件化。
- 使用 3D VAE 将复合序列投射到潜在空间,然后将潜在变量、噪声和运动掩码输入扩散变换器。
- 通过多模态大语言模型整合目标导向的运动语义引导模块,将可视线索对齐到语义运动描述。
- 从带增强的二维骨架和 MLLM 引导的姿态基 DreamActor-M2 演进到通过自举数据合成与训练管线实现的端到端 DreamActor-M2。
- 在扩散骨干上应用 LoRA 调优,以实现轻量化适配,同时保持骨干网络固定。
实验结果
研究问题
- RQ1时空上下文条件化是否能够在多样人物中实现身份保留与动作保真之间的平衡?
- RQ2去除显式姿态先验是否会降低或保持动画质量与泛化能力?
- RQ3是否可以通过自举的伪对来实现端到端的 RGB 驱动动画,而无需姿态 supervision?
- RQ4DreamActor-M2 在人、动物、卡通以及多主体驱动/参考场景下的表现如何?
主要发现
| Method | Imaging Quality (Automatic) | Motion Smoothness (Automatic) | Temporal Consistency (Automatic) | Appearance Consistency (Automatic) | Imaging Quality (Human) | Motion Consistency (Human) | Appearance Consistency (Human) |
|---|---|---|---|---|---|---|---|
| Animate-X++ | 3.45 | 3.42 | 4.15 | 3.21 | 3.18 | 2.95 | 2.86 |
| MTVCrafter | 3.71 | 3.81 | 4.02 | 3.53 | 3.35 | 3.26 | 3.07 |
| DreamActor-M1 | 4.17 | 3.92 | 4.21 | 4.06 | 3.96 | 3.72 | 3.54 |
| Wan2.2-Animate | 4.05 | 4.06 | 4.17 | 3.92 | 3.91 | 3.83 | 3.51 |
| Ours (Pose-based DreamActor-M2) | 4.68 | 4.53 | 4.61 | 4.28 | 4.23 | 4.18 | 4.12 |
| Ours (End-to-End DreamActor-M2) | 4.72 | 4.56 | 4.69 | 4.35 | 4.27 | 4.24 | 4.20 |
- DreamActor-M2 在 AW Bench 的多模态下实现了最先进的可视保真度和跨域泛化能力。
- 基于姿态的与端到端变体在自动评估(Video-Bench)和人工评估中,在成像质量、运动平滑性/一致性、外观保真度方面均超越竞争方法。
- 时空上下文运动条件化优于时间注入基线,能够保留细粒度运动和身份细节。
- 姿态增强和通过 MLLMs 的目标导向文本引导显著提升运动可控性与身份保真度。
- 通过自举数据管线训练的端到端 DreamActor-M2 展现出对非人类主体与多主体场景的强泛化性,降低对显式姿态线索的依赖。
- 定量对比显示我们的方法(端到端 DreamActor-M2)在若干指标上得分高于基于姿态的变体。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。