[論文レビュー] Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades
本論文は、まずテキストから2Dポーズ列を生成し、次に変形認識拡散モデルでポーズ駆動の動画をレンダリングする2段 cascaded フレームワークと、複雑なモーションのBlenderベースの合成データセットを提示し、テキストからポーズへのタスクおよびポーズから動画へのタスクで最先端の指標を達成する。
Generating videos of complex human motions such as flips, cartwheels, and martial arts remains challenging for current video diffusion models. Text-only conditioning is temporally ambiguous for fine-grained motion control, while explicit pose-based controls, though effective, require users to provide complete skeleton sequences that are costly to produce for long and dynamic actions. We propose a two-stage cascaded framework that addresses both limitations. First, an autoregressive text-to-skeleton model generates 2D pose sequences from natural language descriptions by predicting each joint conditioned on previously generated poses. This design captures long-range temporal dependencies and inter-joint coordination required for complex motions. Second, a pose-conditioned video diffusion model synthesizes videos from a reference image and the generated skeleton sequence. It employs DINO-ALF (Adaptive Layer Fusion), a multi-level reference encoder that preserves appearance and clothing details under large pose changes and self-occlusions. To address the lack of publicly available datasets for complex human motion video generation, we introduce a Blender-based synthetic dataset containing 2,000 videos with diverse characters performing acrobatic and stunt-like motions. The dataset provides full control over appearance, motion, and environment. It fills an important gap because existing benchmarks significantly under-represent acrobatic motions while web-collected datasets raise copyright and privacy concerns. Experiments on our synthetic dataset and the Motion-X Fitness benchmark show that our text-to-skeleton model outperforms prior methods on FID, R-precision, and motion diversity. Our pose-to-video model also achieves the best results among all compared methods on VBench metrics for temporal consistency, motion smoothness, and subject preservation.
研究の動機と目的
- 回転ずれのない、反復的でない複雑な人間モーション(例:フリップ、アクロバット)をテキストだけの条件付け以上に controllable に生成する動機付け。
- モーション計画と外観合成を切り分け、編集可能でポーズ精度の高い制御を可能にする。
- 言語から時間的一貫性のある2Dポーズ列を生成する自己回帰的なテキスト→スケルトンモデルを開発。
- 大きなポーズ変化下での外観を頑健に保つ多層外観条件付け機構 DINO-ALF を導入。
- 挑戦的なアクションのためのモデル訓練とベンチマーク用の複雑動作の合成データセットを提供。
提案手法
- Stage 1: 自然言語を2Dポーズ列へ変換する自己回帰 Transformer を用いたテキスト→スケルトン生成(離散化された関節トークンを用いる)。
- ポーズ表現の離散化は連続座標をトークンIDに写像し、フレーム/関節を1次元トークン列へシリアライズする。
- テキスト条件付けは凍結CLIPテキストエンコーダを介して提供され、埋め込みをポストークンの前置パッチとして用い、持続的な conditioning prefix として機能する。
- Stage 2: ポーズ条件付き動画生成は、参照画像と生成されたスケルトンを条件に拡散バックボーンを用いる。
- DINO-ALF は大きな変形や自己遮蔽下で外観を保持するために複数レイヤーの DINOv3 パッチ記述子を統合し、CLIP ベースの条件付けを DINO ベースのクロスアテンションへ置換する。
- 学習は LoRA アダプタを用いて凍結済み拡散バックボーンを微調整し、ロバスト性のため conditioning dropout を採用する。
- アクロバティック・スタント様動作を評価・訓練するためのBlenderベースの複雑動作動画2,000本の合成データセットを導入する。
実験結果
リサーチクエスチョン
- RQ1自己回帰的テキスト→スケルトンモデルは高度にダイナミックで反復性の低い動作に対して信頼性があり、制御可能な2Dポーズ列を生成できるか。
- RQ2変形認識型スケルトンガイド拡散モデルは大きなポーズ変化下で外観を保持し、時間的一貫性を達成できるか。
- RQ3複雑動作の合成データセットはアクロバットやスタントのベンチマークギャップを埋められるか。
- RQ4多層 DINO-ALF の外観手が CLIP ベースの条件付けに比べてポーズ駆動動画生成でどの程度の利得をもたらすか。
主な発見
| Methods | FID | Rp-top1 | Rp-top2 | Rp-top3 | Diversity | MM-Dist |
|---|---|---|---|---|---|---|
| T2M-GPT | 524.61 | 0.191 | 0.287 | 0.473 | 40.11 | 49.85 |
| PriorMDM | 585.31 | 0.216 | 0.325 | 0.501 | 42.58 | 44.29 |
| MLD | 467.22 | 0.335 | 0.503 | 0.653 | 41.67 | 47.66 |
| HumanDreamer | 322.16 | 0.411 | 0.598 | 0.722 | 45.33 | 41.53 |
| Ours | 255.19 | 0.487 | 0.667 | 0.784 | 48.33 | 38.65 |
- テキスト→スケルトンモデルは、FID、R-precision、モーション多様性の評価でベースラインを上回る。
- ポーズ→動画モデルは時間的一貫性、モーションの滑らかさ、主体の保持に関する VBench 指標で比較法の中で最良の結果を達成。
- 提案された2段階カスケードはモーション計画と外観合成を効果的に切り離し、複雑なモーションの制御を可能にする。
- Blenderベースの合成データセットは2,000本の多様なアクロバティック/スタント様モーション動画を提供し、データセットのギャップとプライバシー問題に対処する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。