[论文解读] Human Motion Modeling using DVGANs
DVGANs 提出了一种密集验证的 Wasserstein GAN 框架,用于人体运动生成和完成,结合了 CNN 和 RNN 生成器,以及一个密集的、多分辨率的判别器,条件为文本描述。该模型在 CMU Mocap 和 Human3.6M 上实现了长序列、丰富多样且真实的动作序列,并在 inception scores 和检索指标上进行基准评估。
We present a novel generative model for human motion modeling using Generative Adversarial Networks (GANs). We formulate the GAN discriminator using dense validation at each time-scale and perturb the discriminator input to make it translation invariant. Our model is capable of motion generation and completion. We show through our evaluations the resiliency to noise, generalization over actions, and generation of long diverse sequences. We evaluate our approach on Human 3.6M and CMU motion capture datasets using inception scores.
研究动机与目标
- 激发并解决从零起始生成长序列且用于运动补全的人体运动的多样性挑战。
- 提出一个 DVGANs 架构,将CNN/RNN生成器与密集的多分辨率CNN判别器结合。
- 将运动生成条件化为文本描述,以实现零样本或未见动作的生成。
- 展示对噪声的鲁棒性,以及生成长序列超越短期预测的能力。
- 在大型运动捕捉数据集上对生成质量和检索对齐进行基准评估。
提出的方法
- 提出 DVGANs,结合用于生成器和判别器的 CNN 和 RNN 组件。
- 使用带梯度惩罚的 Wasserstein GAN(WGAN-GP)实现稳定训练。
- 对生成器和判别器都以文本描述为条件,而非固定类别标签。
- 在判别器中实现多时间分辨率的密集验证,以更好地检测伪影。
- 通过平移输入序列来实现平移不变性的数据增强。
- 提供两种生成器变体:一种基于 RNN 的生成器用于生成和完成,另一种基于 CNN 的生成器通过对低帧率动画进行渐进上采样来进行生成。
- 提出一个基于 CNN 的判别器,能够对视频和文本进行编码并使用多分辨率的验证分数。
- 使用带 L2 正则化的优化、满足 Lipschitz 约束的训练,并应用最终裁剪机制以产生固定长度的输出。
实验结果
研究问题
- RQ1DVGANs 是否能够在没有种子帧的情况下,基于文本描述生成长序列、丰富且逼真的人体运动?
- RQ2判别器中的密集多分辨率验证如何影响生成质量和稳定性?
- RQ3对文本的条件化是否使模型能够泛化到未见动作并改善运动补全?
- RQ4数据增强和最终裁剪采样对生成及检索指标有何影响?
- RQ5CNN 与 RNN 生成器架构在运动生成与完成任务中的比较如何?
主要发现
- DVGANs 实现了长序列、高质量的运动生成,并且能够完成运动补全。
- 密集 validation across time-resolutions 在时间分辨率上的验证相比单层验证,在 inception scores 和检索指标上有改进。
- 数据增强和最终裁剪策略带来额外的收益,检索准确性显著提升。
- 基于 CNN 的生成器通常获得更高的 inception 分数和强大的生成能力,而基于 RNN 的生成器在运动补全方面表现出色。
- 在 CMU Mocap 和 Human3.6M 上的实验展示了真实、多样的动作,以及模型在跨动作甚至未见任务上的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。