[論文レビュー] DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning
DreamActor-M2は、時空的コンテキスト学習を用いて駆動ビデオから参照画像へ動作を転送する普遍的なキャラクターアニメーションフレームワークを提示し、エンドツーエンドのRGB駆動アニメーションを実現、様々な被写体に対する強い一般化を実現。
Character image animation aims to synthesize high-fidelity videos by transferring motion from a driving sequence to a static reference image. Despite recent advancements, existing methods suffer from two fundamental challenges: (1) suboptimal motion injection strategies that lead to a trade-off between identity preservation and motion consistency, manifesting as a "see-saw", and (2) an over-reliance on explicit pose priors (e.g., skeletons), which inadequately capture intricate dynamics and hinder generalization to arbitrary, non-humanoid characters. To address these challenges, we present DreamActor-M2, a universal animation framework that reimagines motion conditioning as an in-context learning problem. Our approach follows a two-stage paradigm. First, we bridge the input modality gap by fusing reference appearance and motion cues into a unified latent space, enabling the model to jointly reason about spatial identity and temporal dynamics by leveraging the generative prior of foundational models. Second, we introduce a self-bootstrapped data synthesis pipeline that curates pseudo cross-identity training pairs, facilitating a seamless transition from pose-dependent control to direct, end-to-end RGB-driven animation. This strategy significantly enhances generalization across diverse characters and motion scenarios. To facilitate comprehensive evaluation, we further introduce AW Bench, a versatile benchmark encompassing a wide spectrum of characters types and motion scenarios. Extensive experiments demonstrate that DreamActor-M2 achieves state-of-the-art performance, delivering superior visual fidelity and robust cross-domain generalization. Project Page: https://grisoon.github.io/DreamActor-M2/
研究の動機と目的
- キャラクターアニメーションにおける同一性保持とモーション忠実度のトレードオフに対処する。
- 非ヒューマノイドキャラクターへの一般化を高めるため、明示的なポーズ事前情報への依存を減らす。
- 時空的コンテキストモーション条件付けメカニズムを導入する。
- ポーズベースからRGB駆動アニメーションへ自己ブートストラップ式のエンドツーエンド学習パイプラインを開発する。
- AW Benchを提供し、広範なキャラクターとモーションの多様性を評価する。
提案手法
- 動画生成のバックボーンとして潜在拡散モデル(Seedance 1.0 with MMDiT)を採用する。
- 参照外観と駆動フレームを統合入力シーケンスとして連結することにより、時空的コンテキストモーション条件付けを実装する。
- 3D VAEを用いて複合シーケンスを潜在空間に射影し、潜在表現、ノイズ、モーションマスクを拡散トランスフォーマへ入力する。
- Multimodal Large Language Modelsを介したターゲット指向のモーション-セマンティックガイダンスモジュールを統合し、視覚的手がかりを意味的モーション記述と整合させる。
- ポーズベースのDreamActor-M2に、拡張2DスケルトンとMLLMガイダンスを追加した段階から、自己ブートストラップ型のデータ合成と訓練パイプラインを通じてエンドツーエンドDreamActor-M2へ移行する。
- 拡散バックボーンにLoRAチューニングを適用して、バックボーンを固定したまま軽量な適応を可能にする。
実験結果
リサーチクエスチョン
- RQ1時空的コンテキスト条件付けは、さまざまなキャラクターに対して同一性保持とモーション忠実度のバランスを取れるか。
- RQ2明示的なポーズ事前情報の削除は、アニメーション品質と一般化を劣化させるか、それとも保持するか。
- RQ3ポーズ supervision なしで自己ブートストラップ的な疑似ペアを用いたエンドツーエンドのRGB駆動アニメーションは学習可能か。
- RQ4DreamActor-M2は人間、動物、カートゥーン、多主体の駆動/参照シナリオでどの程度性能を発揮するか。
主な発見
| 方法 | 画像品質(自動) | モーション滑らかさ(自動) | 時間的一貫性(自動) | 外観一貫性(自動) | 画像品質(人間) | モーション一貫性(人間) | 外観一貫性(人間) |
|---|---|---|---|---|---|---|---|
| Animate-X++ | 3.45 | 3.42 | 4.15 | 3.21 | 3.18 | 2.95 | 2.86 |
| MTVCrafter | 3.71 | 3.81 | 4.02 | 3.53 | 3.35 | 3.26 | 3.07 |
| DreamActor-M1 | 4.17 | 3.92 | 4.21 | 4.06 | 3.96 | 3.72 | 3.54 |
| Wan2.2-Animate | 4.05 | 4.06 | 4.17 | 3.92 | 3.91 | 3.83 | 3.51 |
| Ours (Pose-based DreamActor-M2) | 4.68 | 4.53 | 4.61 | 4.28 | 4.23 | 4.18 | 4.12 |
| Ours (End-to-End DreamActor-M2) | 4.72 | 4.56 | 4.69 | 4.35 | 4.27 | 4.24 | 4.20 |
- DreamActor-M2は、AW Bench上で複数のモダリティに対して最先端の視覚忠実度と跨ドメイン一般化を達成した。
- ポーズベースおよびエンドツーエンドのバリアントは、映像品質、モーションの滑らかさ/一貫性、外観忠実度の自動評価(Video-Bench)および人間評価の点で競合法より優れている。
- 時空的コンテキストモーション条件付けは、時間的注入ベースラインよりも優れており、細かなモーションと同一性の詳細を保持する。
- ポーズ拡張とMLLMによるターゲット指向テキストガイダンスは、モーション制御性と同一性保持を著しく改善する。
- 自己ブートストラップデータパイプラインで訓練されたエンドツーエンドDreamActor-M2は、非人間主体および多主体シナリオへの一般化が強く、明示的なポ cuesへの依存を低減する。
- 定量的比較では、複数の指標でEnd-to-End DreamActor-M2がPose-basedバリアントより高いスコアを示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。