Skip to main content
QUICK REVIEW

[論文レビュー] Human Motion Diffusion as a Generative Prior

Yonatan Shafir, Guy Tevet|arXiv (Cornell University)|Mar 2, 2023
Human Motion and Animation被引用数 33
ひとこと要約

本論文は、長期的・多人の制御可能な人間の動作生成を実現するための、拡散事前分布に基づく動作構成手法として、順次、並行、そしてモデル構成(DiffusionBlending)の3手法を提案する(Motion Diffusion Model (MDM) を事前学習済みとして使用)。

ABSTRACT

Recent work has demonstrated the significant potential of denoising diffusion models for generating human motion, including text-to-motion capabilities. However, these methods are restricted by the paucity of annotated motion data, a focus on single-person motions, and a lack of detailed control. In this paper, we introduce three forms of composition based on diffusion priors: sequential, parallel, and model composition. Using sequential composition, we tackle the challenge of long sequence generation. We introduce DoubleTake, an inference-time method with which we generate long animations consisting of sequences of prompted intervals and their transitions, using a prior trained only for short clips. Using parallel composition, we show promising steps toward two-person generation. Beginning with two fixed priors as well as a few two-person training examples, we learn a slim communication block, ComMDM, to coordinate interaction between the two resulting motions. Lastly, using model composition, we first train individual priors to complete motions that realize a prescribed motion for a given joint. We then introduce DiffusionBlending, an interpolation mechanism to effectively blend several such models to enable flexible and efficient fine-grained joint and trajectory-level control and editing. We evaluate the composition methods using an off-the-shelf motion diffusion model, and further compare the results to dedicated models trained for these specific tasks.

研究の動機と目的

  • 新しい構成タスクのために、事前学習済みの拡散事前分布(MDM)を活用して、人間の動作データの制約に対処する。
  • long dataでの再訓練を行わず、sequential composition (DoubleTake) を通じて長い系列の生成を可能にする。
  • 固定された priors の間に、スリムな通信機(ComMDM)を学習させることで、few-shot の二人動作生成を実現する。
  • モデル構成(DiffusionBlending)とターゲットを絞ったファインチューニングを通じて、柔軟で細粒度な制御を提供する。

提案手法

  • 新しいタスクの prior として、固定された事前学習済み Motion Diffusion Model (MDM) を用いる。
  • 長い系列のために DoubleTake を提案する:隣接区間を結合し遷移を洗練させるための handshake を伴う二段階推論。
  • ComMDM を導入する。固定された二つの priors を few-shot 設定で調整する、二人の動作を協調させるスリムな通信ブロック。
  • 拡散過程中に制御特徴をマスキングして遵守を強制することで、軌道および関節制御のために MDM をファインチューニングする(単一制御ファインチューニング)。
  • Cross-joint 制御のために、一般化された classifier-free 指令により複数の条件付きモデルを組み合わせる DiffusionBlending を導入する。
Figure 1. We suggest three novel motion composition methods, all based on the recent Motion Diffusion Model (MDM). (Left) Sequential composition generating an arbitrary long motion with text control over each time interval. (Middle) Parallel composition generating two-person motion from text. A diff
Figure 1. We suggest three novel motion composition methods, all based on the recent Motion Diffusion Model (MDM). (Left) Sequential composition generating an arbitrary long motion with text control over each time interval. (Middle) Parallel composition generating two-person motion from text. A diff

実験結果

リサーチクエスチョン

  • RQ1 pretrained motion diffusion prior を長さの長い動作生成へ再利用できるか(長いデータで再訓練せずに)?
  • RQ2固定された priors の間に協調モジュールを追加するだけで、わずかな訓練例で説得力のある二人の相互作用を生成できるか?
  • RQ3拡散ベースのコントローラをどのようにブレンドまたはファインチューニングして、運動軌道の細粒度の関節レベル制御を実現できるか?
  • RQ4モデル構成手法は、特定の動作タスクに対して専用モデルより優れているか、同等の結果をもたらすか?

主な発見

  • DoubleTake は、短尺 priors を組み合わせて、区間ごとの制御を提供することで、10分間の流暢な動作を可能にする。
  • ComMDM は二つの固定 priors を協調させ、few-shot 訓練で二人の動作を生成でき、プレフィックス補完およびテキスト誘導生成でベースラインを上回す(ユーザー調査)。
  • ファインチューニング制御と DiffusionBlending は、制御信号のクロス組み合わせ(例:root と hand)を可能にし、目標軌道や関節への整合性を向上させる。
  • ベンチマーク(BABEL、HumanML3D、3DPW)全体で、提案手法は複数の指標(R-precision、FID、多様性 など)で専用タスク特化モデルを上回るか、ほぼ同等の性能を示す。
  • 本アプローチは、拡散 priors を用いた長期・多人数・可制御動作生成において、ゼロショットまたは Few-shot の実現性を示す。
Figure 2. Soft blending overview. We allow b frames long linear masking between $\mathbf{M_{hard}}$ to $\mathbf{M_{soft}}$ such that during the Second take at every denoising step part of the originally generated motion (suffix or prefix) going through refinement to fit the transition.
Figure 2. Soft blending overview. We allow b frames long linear masking between $\mathbf{M_{hard}}$ to $\mathbf{M_{soft}}$ such that during the Second take at every denoising step part of the originally generated motion (suffix or prefix) going through refinement to fit the transition.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。