Skip to main content
QUICK REVIEW

[논문 리뷰] Human Motion Diffusion as a Generative Prior

Yonatan Shafir, Guy Tevet|arXiv (Cornell University)|2023. 03. 02.
Human Motion and Animation인용 수 33
한 줄 요약

이 논문은 세 가지 diffusion-prior 기반 모션 구성 방법—순차(Sequential), 병렬(Parallel), 그리고 모델 구성(DiffusionBlending)—을 도입하여 사전 학습된 모션 디퓨전 모델(MDM)을 사용한 장기적 맥락의 다인 간 가변 가능한 인간 모션 생성을 가능하게 한다.

ABSTRACT

Recent work has demonstrated the significant potential of denoising diffusion models for generating human motion, including text-to-motion capabilities. However, these methods are restricted by the paucity of annotated motion data, a focus on single-person motions, and a lack of detailed control. In this paper, we introduce three forms of composition based on diffusion priors: sequential, parallel, and model composition. Using sequential composition, we tackle the challenge of long sequence generation. We introduce DoubleTake, an inference-time method with which we generate long animations consisting of sequences of prompted intervals and their transitions, using a prior trained only for short clips. Using parallel composition, we show promising steps toward two-person generation. Beginning with two fixed priors as well as a few two-person training examples, we learn a slim communication block, ComMDM, to coordinate interaction between the two resulting motions. Lastly, using model composition, we first train individual priors to complete motions that realize a prescribed motion for a given joint. We then introduce DiffusionBlending, an interpolation mechanism to effectively blend several such models to enable flexible and efficient fine-grained joint and trajectory-level control and editing. We evaluate the composition methods using an off-the-shelf motion diffusion model, and further compare the results to dedicated models trained for these specific tasks.

연구 동기 및 목표

  • 데이터 한계를 해결하기 위해 인간 모션의 데이터 한계를 해결하기 위해 사전 학습된 확산 프리인 MDM을 새로운 구성 작업에 활용한다.
  • 긴 데이터 재학습 없이 순차 구성(DoubleTake)를 통해 긴 시퀀스 생성을 가능하게 한다.
  • 고정 프리 사이에서 가는 소형 통신기(ComMDM)를 학습시켜 푸시샷 두 사람 모션 생성을 달성한다.
  • 모델 구성(DiffusionBlending)과 표적 미세 조정을 통해 유연하고 세밀한 제어를 제공한다.

제안 방법

  • 새로운 작업에 대한 프리로 고정된 MDM을 프리로 사용한다.
  • 긴 시퀀스를 위한 DoubleTake를 제안한다: 인접 구간을 결합하고 전환을 다듬기 위해 핸드셰이크를 포함한 두 단계 추론.
  • 두 고정 프리를 앞의 설정에서 소형 커뮤니케이션 블록 ComMDM을 도입하여 두 사람 모션을 조정한다.
  • 확산 과정에서 제어 특성을 마스킹하여 순응을 강제하고 경로와 관절 제어를 위해 MDM을 미세 조정한다(단일 제어 미세 조정).
  • 교차 관절 제어를 위한 일반화된 classifier-free 가이던스 방식으로 다중 조건화 모델을 구성하는 DiffusionBlending을 도입한다.
Figure 1. We suggest three novel motion composition methods, all based on the recent Motion Diffusion Model (MDM). (Left) Sequential composition generating an arbitrary long motion with text control over each time interval. (Middle) Parallel composition generating two-person motion from text. A diff
Figure 1. We suggest three novel motion composition methods, all based on the recent Motion Diffusion Model (MDM). (Left) Sequential composition generating an arbitrary long motion with text control over each time interval. (Middle) Parallel composition generating two-person motion from text. A diff

실험 결과

연구 질문

  • RQ1사전 학습된 모션 디퓨전 프리가 긴 데이터에 대한 재학습 없이 arbitrarily long motions 생성에 재목적화될 수 있는가?
  • RQ2고정 프리 사이에 조정 모듈을 추가하여 몇 가지 학습 예제로도 설득력 있는 두 사람 간 상호 작용을 생성하는 것이 가능한가?
  • RQ3확산 기반 컨트롤러를 어떻게 블렌딩하거나 미세 조정하여 모션 궤적의 세밀하고 관절 수준의 제어를 달성할 수 있는가?
  • RQ4모델 구성 기법이 특정 모션 작업에 대해 전용 모델보다 우수하거나 비슷한 성능을 보이는가?

주요 결과

  • DoubleTake는 짧은 클립 프리를 조합하고 구간별 제어를 제공함으로써 10분 분량의 유창한 모션을 가능하게 한다.
  • ComMDM은 두 개의 고정 프리를 조정하여 few-shot 학습으로 두 사람 모션을 생성하고 접두 보완(prefix completion) 및 텍스트 가이던 생성에서 베이스라인을 능가한다(사용자 연구).
  • 미세 조정 제어와 DiffusionBlending은 제어 신호의 교차 조합(root와 hand 등)을 가능하게 하고 대상 궤적 및 관절과의 정합성을 향상한다.
  • 벤치마크(BABEL, HumanML3D, 3DPW) 전반에서 제안된 방법은 다수의 지표(R-precision, FID, diversity 등)에서 전용 특정 작업 모델을 능가하거나 근접한 성능을 보여준다.
  • 이 접근법은 diffusion priors를 사용한 장기-지평, 다인 간, 그리고 제어 가능한 모션 생성을 제로샷 또는 few-shot로 가능성을 보인다.
Figure 2. Soft blending overview. We allow b frames long linear masking between $\mathbf{M_{hard}}$ to $\mathbf{M_{soft}}$ such that during the Second take at every denoising step part of the originally generated motion (suffix or prefix) going through refinement to fit the transition.
Figure 2. Soft blending overview. We allow b frames long linear masking between $\mathbf{M_{hard}}$ to $\mathbf{M_{soft}}$ such that during the Second take at every denoising step part of the originally generated motion (suffix or prefix) going through refinement to fit the transition.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.