Skip to main content
QUICK REVIEW

[论文解读] MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model

Mingyuan Zhang, Zhongang Cai|arXiv (Cornell University)|Aug 31, 2022
Human Motion and Animation被引用 110
一句话总结

MotionDiffuse 使用扩散模型框架,结合跨模态 transformer,生成多样、可控的文本驱动人体运动,包括身体部位和时间可变控制。

ABSTRACT

Human motion modeling is important for many modern graphics applications, which typically require professional skills. In order to remove the skill barriers for laymen, recent motion generation methods can directly generate human motions conditioned on natural languages. However, it remains challenging to achieve diverse and fine-grained motion generation with various text inputs. To address this problem, we propose MotionDiffuse, the first diffusion model-based text-driven motion generation framework, which demonstrates several desired properties over existing methods. 1) Probabilistic Mapping. Instead of a deterministic language-motion mapping, MotionDiffuse generates motions through a series of denoising steps in which variations are injected. 2) Realistic Synthesis. MotionDiffuse excels at modeling complicated data distribution and generating vivid motion sequences. 3) Multi-Level Manipulation. MotionDiffuse responds to fine-grained instructions on body parts, and arbitrary-length motion synthesis with time-varied text prompts. Our experiments show MotionDiffuse outperforms existing SoTA methods by convincing margins on text-driven motion generation and action-conditioned motion generation. A qualitative analysis further demonstrates MotionDiffuse's controllability for comprehensive motion generation. Homepage: https://mingyuan-zhang.github.io/projects/MotionDiffuse.html

研究动机与目标

  • 降低从自然语言描述创作现实人体运动的门槛。
  • 引入一种基于扩散的概率方法用于文本到运动的生成,以提高多样性。
  • 实现多层次的操控,包括身体部位级控制和任意长度的运动合成。
  • 在文本驱动和动作条件的运动生成任务上展示最先进的性能。

提出的方法

  • 使用扩散模型(DDPM)来生成以文本描述为条件的运动序列。
  • 引入带文本编码器和运动解码器的跨模态线性 transformer,以处理可变长度的序列。
  • 引入线性自注意力(Efficient Attention)和线性跨注意力,将文本融入运动生成。
  • 应用 Stylization Block 将文本和时间(t)信息注入到每个去噪步骤。
  • 通过对分区人体部件进行噪声插值并进行平滑修正,实现对身体部位独立控制。
  • 通过对多个时间区间进行去噪并对噪声进行插值以及校正项,实现时间变化控制。
  • 通过优化一个单一损失来预测扩散过程中的噪声项 psilon_theta。

实验结果

研究问题

  • RQ1扩散模型是否能从自然语言提示生成多样且高保真的运动?
  • RQ2跨模态 transformer 是否能有效将文本融入到可变长度序列的运动生成?
  • RQ3在保持质量的前提下,是否能在运动合成过程中对细粒度、按身体部位和时间变化的提示进行控制?
  • RQ4与以往的最先进方法相比,MotionDiffuse 在文本驱动和动作条件的运动生成基准上的表现如何?

主要发现

  • MotionDiffuse 在文本驱动运动生成和动作条件运动生成方面相对于现有最先进方法取得显著提升。
  • 该框架演示了由自然语言提示驱动的高保真、多样化运动合成。
  • 多层次的操控能够实现身体部位级控制和时间变化序列的生成,而无需额外的训练成本。
  • 定性分析显示 MotionDiffuse 的可控性以及处理复杂、长时间运动序列的能力。
  • 在多个人体运动数据集(如 HumanML3D、KIT-ML、HumanAct12、UESTC)上的实验表明广泛的适用性以及优于现有方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。