[논문 리뷰] Human Motion Diffusion Model
MDM은 모션 샘플 x0를 직접 예측하는 변환기 기반의 classifier-free 확산 모델을 사용하여 기하학적 손실로 경량 학습을 가능하게 하고, 텍스트-투-모션 및 액션-투-모션 벤치마크에서 최첨단 결과를 달성하며 편집 및 중간생성을 지원한다.
Natural and expressive human motion generation is the holy grail of computer animation. It is a challenging task, due to the diversity of possible motion, human perceptual sensitivity to it, and the difficulty of accurately describing it. Therefore, current generative solutions are either low-quality or limited in expressiveness. Diffusion models, which have already shown remarkable generative capabilities in other domains, are promising candidates for human motion due to their many-to-many nature, but they tend to be resource hungry and hard to control. In this paper, we introduce Motion Diffusion Model (MDM), a carefully adapted classifier-free diffusion-based generative model for the human motion domain. MDM is transformer-based, combining insights from motion generation literature. A notable design-choice is the prediction of the sample, rather than the noise, in each diffusion step. This facilitates the use of established geometric losses on the locations and velocities of the motion, such as the foot contact loss. As we demonstrate, MDM is a generic approach, enabling different modes of conditioning, and different generation tasks. We show that our model is trained with lightweight resources and yet achieves state-of-the-art results on leading benchmarks for text-to-motion and action-to-motion. https://guytevet.github.io/mdm-page/ .
연구 동기 및 목표
- 인간 모션 생성을 위한 경량이면서도 표현력 있는 확산 접근 방식의 동기를 부여한다.
- 모션 현실감을 높이기 위해 기하학적 손실(위치, 발 접촉, 속도)을 활용한다.
- 다중 조건 모드(text-to-motion, action-to-motion, unconditioned)에서 classifier-free 가이던스를 통해 사용성을 확장한다.
- 모션 데이터의 확산 기반 인페인팅으로 편집 및 중간생성 능력을 시연한다.
- 실용적인 학습 효율성(중급 GPU에서 약 3일)과 경쟁 벤치마크를 보인다.
제안 방법
- 모션 시퀀스(관절 x D)를 처리하는 트랜스포머 인코더 백본을 채택한다.
- 노이즈를 예측하는 것이 아니라 각 디노이즈 단계 t에서 깨끗한 모션 x0를 예측하며 손실 L_simple=E[||x0−G(xt,t,c)||^2]를 따른다.
- 기하학적 손실: 예측 위치를 정렬하는 L_pos, 발 미끄러짐을 줄이는 L_foot, 속도를 맞추는 L_vel을 도입한다.
- 샘플링 시 c를 무작위로 제거하여 p(x0|c)를 학습하고 가이던스 스케일 s로 샘플링을 가능하게 하는 classifier-free 가이던스로 학습한다(샘플의 약 10% 지점에서).
- 텍스트-투-모션을 위해 CLIP 기반 텍스트 임베딩에 조건화하거나 액션-투-모션을 위해 액션 임베딩을 학습한다; unconditioned 생성을 지원한다(c=empty).
- 편집을 위한 확산 인페인팅을 사용한다: 모션의 일부를 고정하고 누락된 구간을 생성하거나 샘플링 도중 신체 부위를 재합성한다.
실험 결과
연구 질문
- RQ1경량의 트랜스포머 기반 확산 모델이 텍스트-투-모션 및 액션-투-모션 과제의 다대다 특성을 정확하게 포착할 수 있는가?
- RQ2모션에 특화된 기하학적 손실(위치, 발 접촉, 속도)이 확산 기반 모션의 품질과 현실감을 향상시키는가?
- RQ3클래시파이(클래시파이 없이) 가이던스가 여러 조건화 방식에서 충실도와 다양성의 균형을 이루는 데 효과적인가?
- RQ4모션 인페인팅을 이용한 확산 기반 편집 및 중간생성이 재훈련 없이 가능할 수 있는가?
- RQ5표준 벤치마크에서 최첨단 성능에 도달하기 위한 실용적 학습 및 추론 요구사항은 무엇인가?
주요 결과
| 방법 | R 정확도 (상위 3) ↑ | FID ↓ | 다중 모달리티 차이 ↓ | 다양성 → | 다중모달리티 ↑ |
|---|---|---|---|---|---|
| Real | 0.779 ±0.006 | 0.031 ±0.004 | 2.788 ±0.012 | 11.08 ±0.097 | - |
| JL2P | 0.483 ±0.005 | 6.545 ±0.072 | 5.147 ±0.030 | 9.073 ±0.100 | - |
| Text2Gesture | 0.338 ±0.005 | 12.12 ±0.183 | 6.964 ±0.029 | 9.334 ±0.079 | - |
| T2M | 0.693 ±0.007 | 2.770 ±0.109 | 3.401 ±0.008 | 10.91 ±0.119 | 1.482 ±0.065 |
| MDM (ours) | 0.396 ±0.004 | 0.497 ±0.021 | 9.191 ±0.022 | 10.847 ±0.109 | 1.907 ±0.214 |
| MDM (decoder) | 0.396 ±0.004 | 0.767 ±0.085 | 5.507 ±0.020 | 9.176 ±0.070 | 2.927 ±0.125 |
| + input token | 0.621 ±0.005 | 0.567 ±0.051 | 5.424 ±0.022 | 9.425 ±0.060 | 2.834 ±0.095 |
| MDM (GRU) | 0.645 ±0.005 | 4.569 ±0.150 | 5.325 ±0.026 | 7.688 ±0.082 | 1.264 ±0.024 |
- MDM은 텍스트-투-모션 벤치마크인 HumanML3D와 KIT에서 최첨단 결과를 달성한다.
- 사용자 연구에서 평가자들이 여러 경우에 MDM을 유사 방법보다 선호했으며, 한 테스트에서 ground truth 대비 42.3%를 선호했다.
- MDM은 액션-투-모션 벤치마크인 HumanAct12 및 UESTC에서 FID, 다양성, 다중모달성 지표에서 전에 비해 우수하며(발 접촉 손실이 결과를 개선).
- 변형자 백본으로의 확산은 단일 RTX 2080 Ti에서 약 3일에 학습되며, 약 1000개의 노이징 스텝과 코사인 스케줄을 사용한다.
- 인페인팅을 통한 편집 및 중간생성은 시계열 및 공간 도메인 모두에서 가능해 재훈련 없이 모션 완성 및 신체 부위 편집이 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.