QUICK REVIEW

[论文解读] QuaterNet: A Quaternion-based Recurrent Model for Human Motion

Dario Pavllo, David Grangier|arXiv (Cornell University)|May 16, 2018

Human Pose and Action Recognition参考文献 63被引用 142

一句话总结

QuaterNet 使用四元数旋转，结合可微前向运动学损失，在两层 GRU RNN 中预测 3D 人体动作，实现在短期角度预测的最先进水平，并在长期运动生成方面达到真实感。

ABSTRACT

Deep learning for predicting or generating 3D human pose sequences is an active research area. Previous work regresses either joint rotations or joint positions. The former strategy is prone to error accumulation along the kinematic chain, as well as discontinuities when using Euler angle or exponential map parameterizations. The latter requires re-projection onto skeleton constraints to avoid bone stretching and invalid configurations. This work addresses both limitations. Our recurrent network, QuaterNet, represents rotations with quaternions and our loss function performs forward kinematics on a skeleton to penalize absolute position errors instead of angle errors. On short-term predictions, QuaterNet improves the state-of-the-art quantitatively. For long-term generation, our approach is qualitatively judged as realistic as recent neural strategies from the graphics literature.

研究动机与目标

解决 3D 人体姿态建模中旋转与位置表示的局限性。
提出基于四元数的关节旋转参数化，以避免不连续性和奇异性。
引入可微的前向运动学损失，以惩罚绝对关节位置而非角度。
在 Human3.6m 上展示对短期预测精度的提升，以及在长期运动生成方面的竞争力。
提供端到端训练，并通过对模型自身预测的课程暴露来实现稳定性。

提出的方法

将人体建模为一个 3D 骨架，关节旋转表示为单位四元数，并通过包含小罚项的规范化层强制单位范数。
使用两层 GRU 自回归网络（每层 1000 个隐藏单元）从初始化帧预测未来姿态状态。
预测旋转增量（速度）或绝对旋转；对于短期，应用四元数乘法更新旋转。
计算基于前向运动学的可微分位置损失，将预测的关节位置与参考姿态进行比较，而不仅仅依赖角度误差。
对四元数输出进行正则化，并选择更接近前一帧的表示（q 或 -q）以确保时间连续性。
在长期生成中，加入一个辅助节拍网络，输出轨迹参数（速度、朝向、节拍）以沿给定路径驱动姿态生成。
采用课程学习（计划采样）逐步让模型接触自身预测，以减轻暴露偏差。

实验结果

研究问题

RQ1四元数为基础的旋转参数化是否能够减少在循环运动模型中使用欧拉角或指数映射时观察到的不连续性和不稳定性？
RQ2可微前向运动学位置损失是否提升与人类感知精度的一致性，针对短期预测和长期运动生成？
RQ3在 QuaterNet 中，基于速度的增量预测与绝对旋转预测在短期与长期任务中的对比如何？
RQ4是否可在在线、实时的前提下，以可控轨迹参数实现长期运动生成，同时保持真实感？
RQ5课程学习对在较长时间范围内预测时的稳定性和准确性有何影响？

主要发现

QuaterNet 在短期角度预测基准（Human3.6m）上实现了跨动作和跨时间步的最先进结果。
在长期生成方面，基于速度的训练在计划采样的帮助下减少了漂移，而绝对旋转建模提供了更好的稳定性与较少的不连续性。
前向运动学位置损失在长期生成中产生了更低的位移误差和更稳定的训练，相较于基于角度的损失。
基于四元数的表述避免了常见于旋转预测中的骨长违规与不连续性，在生成的步态动画中提供了具有竞争力的真实感。
该方法通过一个节拍网络实现可控轨迹参数的实时在线生成，能够对速度、朝向和节拍进行艺术家式控制。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。