[논문 리뷰] Single Motion Diffusion
SinMDM은 임의의 토폴로지를 가진 단일 모션 시퀀스에서 내부 모티프를 학습하고, 재훈련 없이 추론 시 길고 다양하며 충실한 모션을 합성하는 경량 확산 기반 모델입니다.
Synthesizing realistic animations of humans, animals, and even imaginary creatures, has long been a goal for artists and computer graphics professionals. Compared to the imaging domain, which is rich with large available datasets, the number of data instances for the motion domain is limited, particularly for the animation of animals and exotic creatures (e.g., dragons), which have unique skeletons and motion patterns. In this work, we present a Single Motion Diffusion Model, dubbed SinMDM, a model designed to learn the internal motifs of a single motion sequence with arbitrary topology and synthesize motions of arbitrary length that are faithful to them. We harness the power of diffusion models and present a denoising network explicitly designed for the task of learning from a single input motion. SinMDM is designed to be a lightweight architecture, which avoids overfitting by using a shallow network with local attention layers that narrow the receptive field and encourage motion diversity. SinMDM can be applied in various contexts, including spatial and temporal in-betweening, motion expansion, style transfer, and crowd animation. Our results show that SinMDM outperforms existing methods both in quality and time-space efficiency. Moreover, while current approaches require additional training for different applications, our work facilitates these applications at inference time. Our code and trained models are available at https://sinmdm.github.io/SinMDM-page.
연구 동기 및 목표
- 비인간 또는 매우 맞춤형 골격 구조에 대한 모션 데이터의 희소성을 동기화하고 해결합니다.
- 단일 모션 시퀀스에서 학습하여 임의의 토폴로지에서 가변 길이의 모티프-충실 모션을 합성하는 확산 기반 프레임워크를 제안합니다.
- 과적합을 방지하고 효율적 추론 및 다양한 출력을 가능하게 하는 좁은 수용 영역을 가진 경량 아키텍처를 개발합니다.
- 추가 훈련 없이 추론 시 모션 합성, 하모나이제이션, 스타일 전송, 장시퀀스 생성, 군중 애니메이션과 같은 응용을 가능하게 합니다.
제안 방법
- 원래 모션 x0를 잡음 버전 xt에서 예측하도록 학습된 노이즈 제거 확산 확률 모델(DDPM)을 채택합니다(무조건 합성).
- 모션을 동적(D) 및 정적(S) 특징으로 표현하고, 고정 골격 토폴로지와 뼈 길이에 대해 동역학에 학습을 집중합니다.
- QnA 로컬 어텐션이 보강된 얕은 UNet 아키텍처를 사용하여 좁은 시간적 수용 영역을 강제하고 과적합을 피합니다.
- 간단한 L_simple 손실: E_t [ || x0 - p_theta(x_t, t) ||^2 ].
- pure noise xT에서 시작하여 점진적으로 디노이즈하고 x_{t-1}을 생성하도록 재노이즈하여 x0를 얻습니다.
- 추론 시 재훈련 없이도 여러 응용(모션 합성, 하모나이제이션, 스타일 전송, 장시퀀스 생성, 군중 애니메이션)을 지원하도록 적용합니다.
실험 결과
연구 질문
- RQ1SinMDM이 임의의 골격 토폴로지에서 단일 모션 시퀀스로 핵심 모티프를 학습하고 보존할 수 있는가?
- RQ2로컬 QnA 어텐션이 있는 얕은 UNet가 과적합 없이 단일 모션 확산을 모델링하고 경쟁력 있는 품질과 효율성을 제공하는가?
- RQ3추론 시 응용(예: 모션 합성, 하모나이제이션, 스타일 전송, 장시퀀스 생성, 군중 애니메이션)이 추가 훈련 없이 달성될 수 있는가?
- RQ4다양한 데이터셋(Mixamo, HumanML3D)에서 SinMDM의 성능은 Ganimator와 같은 단일 모션 베이스라인에 비해 어떤가?
주요 결과
| Coverage ↑ | Global Div. ↑ | Local Div. ↑ | Inter Div. ↑ | Intra Div. Diff. ↓ | #Param. (M) ↓ | #Iter. (K) ↓ | Iter. Time (s) ↓ | Tot. Time (h) ↓ | Harmon. Mean ↑ | |
|---|---|---|---|---|---|---|---|---|---|---|
| Ganimator | 94.3 | 1.24 | 1.17 | 0.09 | 0.13 | 21.7 | 60 (15 × 4) | 0.36 | 6.0 | -0.22 |
| SinMDM (Ours) | 94.3 | 1.42 | 1.00 | 0.13 | 0.03 | 5.26 | 60 | 0.09 | 1.5 | 0.85 |
- SinMDM은 Mixamo 벤치마크에서 여러 지표에서 이전의 단일 모션 방법(Ganimator)보다 우수하며, 특히 조화 평균에서 더 나은 성능을 보이고 파라미터 수와 반복 횟수는 더 적습니다.
- Mixamo에서 SinMDM은 Coverage를 동일하게 달성하고 Global Diversity/ Local Diversity를 더 우수하게 달성하며 파라미터 수와 총 시간이 크게 감소합니다.
- Gangnam-style 모션에서 SinMDM은 Inter Diversity가 더 높고 Local Diversity도 동등하거나 더 나은 편이며 Coverage를 강하게 유지합니다.
- SinMDM은 좁은 수용 영역과 확산 기반 프레임워크 덕분에 재훈련 없이도 장모션 생성 및 군중 애니메이션을 지원합니다.
- 모델은 단일 중간급 GPU에서 학습하기에 충분히 효율적이며 다양한 응용에 대한 추론 시 특화도 지원합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.