[論文レビュー] Human Motion Diffusion as a Generative Prior
本論文は、長期的・多人の制御可能な人間の動作生成を実現するための、拡散事前分布に基づく動作構成手法として、順次、並行、そしてモデル構成(DiffusionBlending)の3手法を提案する(Motion Diffusion Model (MDM) を事前学習済みとして使用)。
Recent work has demonstrated the significant potential of denoising diffusion models for generating human motion, including text-to-motion capabilities. However, these methods are restricted by the paucity of annotated motion data, a focus on single-person motions, and a lack of detailed control. In this paper, we introduce three forms of composition based on diffusion priors: sequential, parallel, and model composition. Using sequential composition, we tackle the challenge of long sequence generation. We introduce DoubleTake, an inference-time method with which we generate long animations consisting of sequences of prompted intervals and their transitions, using a prior trained only for short clips. Using parallel composition, we show promising steps toward two-person generation. Beginning with two fixed priors as well as a few two-person training examples, we learn a slim communication block, ComMDM, to coordinate interaction between the two resulting motions. Lastly, using model composition, we first train individual priors to complete motions that realize a prescribed motion for a given joint. We then introduce DiffusionBlending, an interpolation mechanism to effectively blend several such models to enable flexible and efficient fine-grained joint and trajectory-level control and editing. We evaluate the composition methods using an off-the-shelf motion diffusion model, and further compare the results to dedicated models trained for these specific tasks.
研究の動機と目的
- 新しい構成タスクのために、事前学習済みの拡散事前分布(MDM)を活用して、人間の動作データの制約に対処する。
- long dataでの再訓練を行わず、sequential composition (DoubleTake) を通じて長い系列の生成を可能にする。
- 固定された priors の間に、スリムな通信機(ComMDM)を学習させることで、few-shot の二人動作生成を実現する。
- モデル構成(DiffusionBlending)とターゲットを絞ったファインチューニングを通じて、柔軟で細粒度な制御を提供する。
提案手法
- 新しいタスクの prior として、固定された事前学習済み Motion Diffusion Model (MDM) を用いる。
- 長い系列のために DoubleTake を提案する:隣接区間を結合し遷移を洗練させるための handshake を伴う二段階推論。
- ComMDM を導入する。固定された二つの priors を few-shot 設定で調整する、二人の動作を協調させるスリムな通信ブロック。
- 拡散過程中に制御特徴をマスキングして遵守を強制することで、軌道および関節制御のために MDM をファインチューニングする(単一制御ファインチューニング)。
- Cross-joint 制御のために、一般化された classifier-free 指令により複数の条件付きモデルを組み合わせる DiffusionBlending を導入する。

実験結果
リサーチクエスチョン
- RQ1 pretrained motion diffusion prior を長さの長い動作生成へ再利用できるか(長いデータで再訓練せずに)?
- RQ2固定された priors の間に協調モジュールを追加するだけで、わずかな訓練例で説得力のある二人の相互作用を生成できるか?
- RQ3拡散ベースのコントローラをどのようにブレンドまたはファインチューニングして、運動軌道の細粒度の関節レベル制御を実現できるか?
- RQ4モデル構成手法は、特定の動作タスクに対して専用モデルより優れているか、同等の結果をもたらすか?
主な発見
- DoubleTake は、短尺 priors を組み合わせて、区間ごとの制御を提供することで、10分間の流暢な動作を可能にする。
- ComMDM は二つの固定 priors を協調させ、few-shot 訓練で二人の動作を生成でき、プレフィックス補完およびテキスト誘導生成でベースラインを上回す(ユーザー調査)。
- ファインチューニング制御と DiffusionBlending は、制御信号のクロス組み合わせ(例:root と hand)を可能にし、目標軌道や関節への整合性を向上させる。
- ベンチマーク(BABEL、HumanML3D、3DPW)全体で、提案手法は複数の指標(R-precision、FID、多様性 など)で専用タスク特化モデルを上回るか、ほぼ同等の性能を示す。
- 本アプローチは、拡散 priors を用いた長期・多人数・可制御動作生成において、ゼロショットまたは Few-shot の実現性を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。