[논문 리뷰] Human Motion Diffusion as a Generative Prior
이 논문은 세 가지 diffusion-prior 기반 모션 구성 방법—순차(Sequential), 병렬(Parallel), 그리고 모델 구성(DiffusionBlending)—을 도입하여 사전 학습된 모션 디퓨전 모델(MDM)을 사용한 장기적 맥락의 다인 간 가변 가능한 인간 모션 생성을 가능하게 한다.
Recent work has demonstrated the significant potential of denoising diffusion models for generating human motion, including text-to-motion capabilities. However, these methods are restricted by the paucity of annotated motion data, a focus on single-person motions, and a lack of detailed control. In this paper, we introduce three forms of composition based on diffusion priors: sequential, parallel, and model composition. Using sequential composition, we tackle the challenge of long sequence generation. We introduce DoubleTake, an inference-time method with which we generate long animations consisting of sequences of prompted intervals and their transitions, using a prior trained only for short clips. Using parallel composition, we show promising steps toward two-person generation. Beginning with two fixed priors as well as a few two-person training examples, we learn a slim communication block, ComMDM, to coordinate interaction between the two resulting motions. Lastly, using model composition, we first train individual priors to complete motions that realize a prescribed motion for a given joint. We then introduce DiffusionBlending, an interpolation mechanism to effectively blend several such models to enable flexible and efficient fine-grained joint and trajectory-level control and editing. We evaluate the composition methods using an off-the-shelf motion diffusion model, and further compare the results to dedicated models trained for these specific tasks.
연구 동기 및 목표
- 데이터 한계를 해결하기 위해 인간 모션의 데이터 한계를 해결하기 위해 사전 학습된 확산 프리인 MDM을 새로운 구성 작업에 활용한다.
- 긴 데이터 재학습 없이 순차 구성(DoubleTake)를 통해 긴 시퀀스 생성을 가능하게 한다.
- 고정 프리 사이에서 가는 소형 통신기(ComMDM)를 학습시켜 푸시샷 두 사람 모션 생성을 달성한다.
- 모델 구성(DiffusionBlending)과 표적 미세 조정을 통해 유연하고 세밀한 제어를 제공한다.
제안 방법
- 새로운 작업에 대한 프리로 고정된 MDM을 프리로 사용한다.
- 긴 시퀀스를 위한 DoubleTake를 제안한다: 인접 구간을 결합하고 전환을 다듬기 위해 핸드셰이크를 포함한 두 단계 추론.
- 두 고정 프리를 앞의 설정에서 소형 커뮤니케이션 블록 ComMDM을 도입하여 두 사람 모션을 조정한다.
- 확산 과정에서 제어 특성을 마스킹하여 순응을 강제하고 경로와 관절 제어를 위해 MDM을 미세 조정한다(단일 제어 미세 조정).
- 교차 관절 제어를 위한 일반화된 classifier-free 가이던스 방식으로 다중 조건화 모델을 구성하는 DiffusionBlending을 도입한다.

실험 결과
연구 질문
- RQ1사전 학습된 모션 디퓨전 프리가 긴 데이터에 대한 재학습 없이 arbitrarily long motions 생성에 재목적화될 수 있는가?
- RQ2고정 프리 사이에 조정 모듈을 추가하여 몇 가지 학습 예제로도 설득력 있는 두 사람 간 상호 작용을 생성하는 것이 가능한가?
- RQ3확산 기반 컨트롤러를 어떻게 블렌딩하거나 미세 조정하여 모션 궤적의 세밀하고 관절 수준의 제어를 달성할 수 있는가?
- RQ4모델 구성 기법이 특정 모션 작업에 대해 전용 모델보다 우수하거나 비슷한 성능을 보이는가?
주요 결과
- DoubleTake는 짧은 클립 프리를 조합하고 구간별 제어를 제공함으로써 10분 분량의 유창한 모션을 가능하게 한다.
- ComMDM은 두 개의 고정 프리를 조정하여 few-shot 학습으로 두 사람 모션을 생성하고 접두 보완(prefix completion) 및 텍스트 가이던 생성에서 베이스라인을 능가한다(사용자 연구).
- 미세 조정 제어와 DiffusionBlending은 제어 신호의 교차 조합(root와 hand 등)을 가능하게 하고 대상 궤적 및 관절과의 정합성을 향상한다.
- 벤치마크(BABEL, HumanML3D, 3DPW) 전반에서 제안된 방법은 다수의 지표(R-precision, FID, diversity 등)에서 전용 특정 작업 모델을 능가하거나 근접한 성능을 보여준다.
- 이 접근법은 diffusion priors를 사용한 장기-지평, 다인 간, 그리고 제어 가능한 모션 생성을 제로샷 또는 few-shot로 가능성을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.