Skip to main content
QUICK REVIEW

[논문 리뷰] MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model

Mingyuan Zhang, Zhongang Cai|arXiv (Cornell University)|2022. 08. 31.
Human Motion and Animation인용 수 110
한 줄 요약

MotionDiffuse는 교차 모달리티 트랜스포머를 갖춘 확산 모델 프레임워크를 사용하여 몸 부분 제어 및 시간에 따라 변하는 제어를 포함한 다양한, 제어 가능한 텍스트 기반 인간 모션을 생성합니다.

ABSTRACT

Human motion modeling is important for many modern graphics applications, which typically require professional skills. In order to remove the skill barriers for laymen, recent motion generation methods can directly generate human motions conditioned on natural languages. However, it remains challenging to achieve diverse and fine-grained motion generation with various text inputs. To address this problem, we propose MotionDiffuse, the first diffusion model-based text-driven motion generation framework, which demonstrates several desired properties over existing methods. 1) Probabilistic Mapping. Instead of a deterministic language-motion mapping, MotionDiffuse generates motions through a series of denoising steps in which variations are injected. 2) Realistic Synthesis. MotionDiffuse excels at modeling complicated data distribution and generating vivid motion sequences. 3) Multi-Level Manipulation. MotionDiffuse responds to fine-grained instructions on body parts, and arbitrary-length motion synthesis with time-varied text prompts. Our experiments show MotionDiffuse outperforms existing SoTA methods by convincing margins on text-driven motion generation and action-conditioned motion generation. A qualitative analysis further demonstrates MotionDiffuse's controllability for comprehensive motion generation. Homepage: https://mingyuan-zhang.github.io/projects/MotionDiffuse.html

연구 동기 및 목표

  • 자연어 설명으로부터 현실적인 인간 모션을 생성하는 장벽을 낮춘다.
  • 다양성을 높이기 위한 텍스트-투-모션 생성을 위한 확률적이고 확산 기반의 접근법을 도입한다.
  • 신체 부위 수준의 제어 및 임의 길이 모션 합성을 포함한 다중 수준 조작을 가능하게 한다.
  • 텍스트 기반 및 동작 조건 모션 생성 작업에서 최첨단 성능을 입증한다.

제안 방법

  • 텍스트 설명에 조건화된 모션 시퀀스를 생성하기 위해 확산 모델(DDPM)을 사용한다.
  • 가변 길이 시퀀스를 다루기 위해 텍스트 인코더와 모션 디코더를 갖춘 Cross-Modality Linear Transformer를 도입한다.
  • 텍스트를 모션 생성에 융합하기 위해 Linear Self-Attention(Efficient Attention)과 Linear Cross-Attention을 도입한다.
  • 각 노이즈 제거 단계에 텍스트와 시간(t) 정보를 주입하기 위해 Stylization Block을 적용한다.
  • 스무딩 보정을 갖춘 파티션된 신체 부위 간의 노이즈 보간을 통해 신체 부위 독립 제어를 구현한다.
  • 보정 항을 포함한 노이즈 보간과 여러 구간의 노이즈 제거를 통해 시간 변화 제어를 가능하게 한다.
  • 확산 과정에서 노이즈 항 ε_theta를 예측하는 단일 손실을 최적화하여 학습한다.

실험 결과

연구 질문

  • RQ1확산 모델이 자연어 프롬프트에서 다양하고 고충실도의 모션을 생성할 수 있는가?
  • RQ2교차 모달리티 트랜스포머가 가변 길이 시퀀스에 대해 텍스트를 모션 생성에 효과적으로 융합하는가?
  • RQ3정교한 신체 부위 수준의 및 시간 변화 프롬프트가 품질 저하 없이 모션 합성 중에 제어될 수 있는가?
  • RQ4이전 최첨단 방법과 비교했을 때 텍스트 기반 및 동작 조건 모션 생성 벤치마크에서 MotionDiffuse의 성능은 어떤가?

주요 결과

  • MotionDiffuse는 텍스트 기반 모션 생성과 동작 조건 모션 생성에서 이전 최첨단 방법들에 비해 상당한 개선을 달성한다.
  • 이 프레임워크는 자연어 프롬프트에 의해 구동되는 고충실도이고 다양한 모션 합성을 입증한다.
  • 다중 수준 조작은 추가 학습 비용 없이 신체 부위 수준의 제어와 시간 변화 시퀀스 생성을 가능하게 한다.
  • 정성적 분석은 MotionDiffuse의 제어 가능성과 복잡하고 긴 모션 시퀀스를 처리하는 능력을 보여준다.
  • 여러 데이터셋(HumanML3D, KIT-ML, HumanAct12, UESTC 등)에 대한 실험은 광범위한 활용성과 기존 접근법에 대한 우수성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.