[论文解读] Action2Motion: Conditioned Generation of 3D Human Motions
本文提出 Action2Motion,一种条件时序变分自编码器(VAE),通过使用李代数建模人体运动学,从指定的动作类别生成多样化、自然的3D人体运动序列。通过在李代数空间中编码运动,该方法增强了物理合理性并解耦了运动学约束,在包括新提出的 HumanAct12 数据集在内的多个基准测试中,实现了运动多样性、真实性和用户偏好的最先进性能。
Action recognition is a relatively established task, where givenan input sequence of human motion, the goal is to predict its ac-tion category. This paper, on the other hand, considers a relativelynew problem, which could be thought of as an inverse of actionrecognition: given a prescribed action type, we aim to generateplausible human motion sequences in 3D. Importantly, the set ofgenerated motions are expected to maintain itsdiversityto be ableto explore the entire action-conditioned motion space; meanwhile,each sampled sequence faithfully resembles anaturalhuman bodyarticulation dynamics. Motivated by these objectives, we followthe physics law of human kinematics by adopting the Lie Algebratheory to represent thenaturalhuman motions; we also propose atemporal Variational Auto-Encoder (VAE) that encourages adiversesampling of the motion space. A new 3D human motion dataset, HumanAct12, is also constructed. Empirical experiments overthree distinct human motion datasets (including ours) demonstratethe effectiveness of our approach.
研究动机与目标
- 为解决基于动作类别生成多样化、自然的3D人体运动序列的挑战,超越确定性或依赖初始姿态的生成方式。
- 通过利用李代数编码运动学约束并解耦骨骼动力学与轨迹及尺度,实现对人体运动的物理合理性建模。
- 通过李代数表示将身体形态(如骨骼长度)与运动模式解耦,实现可控运动生成。
- 通过整理 HumanAct12 数据集并适配现有数据集,建立动作条件化3D运动生成的新基准。
- 在FID和准确率之外评估运动质量,引入多样性、多模态性以及人类感知指标。
提出的方法
- 该方法采用条件时序VAE,利用先前姿态的后验分布作为学习到的先验,通过RNN建模时间依赖性。
- 运动序列在李代数空间中表示,该表示解耦了骨骼解剖结构、时间动态和尺度,并通过前向运动学强制实现物理合理性。
- VAE通过最大化变分下界(ELBO)进行训练,其中KL散度项鼓励潜在空间中的多样性。
- 使用李代数使得潜在空间更紧凑且为欧几里得空间,提升了训练稳定性与收敛速度——在关节坐标方法所需迭代次数的1/10内达到平衡。
- 通过在李代数空间中直接修改骨骼长度,框架支持可控生成,无需微调即可合成不同体型上的相同运动。
- 模型在三个数据集上进行训练与评估:新提出的 HumanAct12 数据集,以及两个适配后的现有数据集,完成全面的客观与主观评估。
实验结果
研究问题
- RQ1带有李代数表示的条件VAE是否能在不依赖初始姿态的情况下,从动作类别生成多样化且物理合理的3D人体运动序列?
- RQ2与关节坐标表示相比,李代数表示在建模运动多样性与真实性方面表现如何?
- RQ3该模型在保留动作特异性运动模式的前提下,对不同身体形态的泛化能力如何?
- RQ4在FID、多样性与多模态性等客观指标上,该方法与现有最先进方法相比表现如何?
- RQ5与真实数据相比,人类评估者如何评价生成运动的真实感与动作一致性?
主要发现
- Action2Motion在多样性与多模态性得分上最接近真实运动数据,显著优于包括无李代数表示的基线方法在内的其他基线。
- 引入李代数表示后,基线方法中异常高的多模态性得分得到降低,使运动分布更加均衡与真实。
- 在用户偏好研究中,64%的Action2Motion生成运动位列前两名,显著优于其他方法,包括条件RNN与两阶段GAN。
- 在人类辨别研究中,58%的Action2Motion生成运动被参与者判断为真实,仅比真实运动基线低3%,表明其具有极高的感知真实感。
- 通过在李代数空间中修改骨骼长度,模型实现了可控运动生成,无需微调即可在不同体型上合成相同运动。
- 使用李代数表示的训练显著加快收敛速度,在约十分之一于基于关节坐标方法所需迭代次数内达到平衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。