QUICK REVIEW

[论文解读] Learning Human Motion Models for Long-term Predictions

Partha Ghosh, Jie Song|arXiv (Cornell University)|Apr 10, 2017

Human Pose and Action Recognition参考文献 32被引用 19

一句话总结

本文提出了一种新型的Dropout自编码器LSTM（DAE-LSTM）架构，结合了三层LSTM进行时序建模，以及基于丢弃的自编码器，通过重建缺失关节来隐式学习骨骼的空间结构。该方法在长时序动作预测中达到最先进性能，能够生成超过10秒的循环动作自然、无漂移序列，以及超过2秒的非周期性动作序列，其有效性通过一种新颖的动作分类器评估协议得到验证。

ABSTRACT

We propose a new architecture for the learning of predictive spatio-temporal motion models from data alone. Our approach, dubbed the Dropout Autoencoder LSTM, is capable of synthesizing natural looking motion sequences over long time horizons without catastrophic drift or motion degradation. The model consists of two components, a 3-layer recurrent neural network to model temporal aspects and a novel auto-encoder that is trained to implicitly recover the spatial structure of the human skeleton via randomly removing information about joints during training time. This Dropout Autoencoder (D-AE) is then used to filter each predicted pose of the LSTM, reducing accumulation of error and hence drift over time. Furthermore, we propose new evaluation protocols to assess the quality of synthetic motion sequences even for which no ground truth data exists. The proposed protocols can be used to assess generated sequences of arbitrary length. Finally, we evaluate our proposed method on two of the largest motion-capture datasets available to date and show that our model outperforms the state-of-the-art on a variety of actions, including cyclic and acyclic motion, and that it can produce natural looking sequences over longer time horizons than previous methods.

研究动机与目标

开发一种数据驱动的时空动作预测模型，能够在不依赖手工设计的时空图的情况下，泛化于多种人体动作。
通过将空间重建与时序建模解耦，缓解序列生成中的长期运动漂移与退化问题。
提出一种新型评估协议，量化合成动作序列在长时序范围内的自然性与一致性。
在大规模动作捕捉数据集上，相较于最先进方法，展示出在长时序动作预测中的优越性能。

提出的方法

模型使用三层LSTM对人类动作序列中的时序依赖关系进行建模，基于历史序列预测下一个姿态。
通过在训练过程中随机移除整个关节位置，训练一个丢弃自编码器（DAE），使其能够重建完整的骨骼姿态，从而迫使网络推断空间关系。
DAE充当姿态滤波器，在输入LSTM前对每个预测姿态进行去噪，减少误差累积与长期漂移。
该架构将空间结构学习（通过DAE实现）与时序序列建模（通过LSTM实现）分离，提升了泛化能力与稳定性。
使用预训练的动作分类器作为新颖的评估指标：同一动作标签的分类持续时间越长，表明合成动作序列的质量越高、越自然。
该方法在H3.6M和Holden动作捕捉数据集上进行训练与评估，直接使用关节角度表示，未进行降维处理。

实验结果

研究问题

RQ1在训练过程中，通过关节丢弃是否能够隐式地让深度学习模型学习到骨骼的空间结构，而无需显式的图监督？
RQ2将空间重建与时序建模解耦，是否能有效减少人体动作生成中的长期预测漂移？
RQ3动作分类器能否作为可靠指标，与人类判断相关联，用于评估长时序合成动作序列的自然性？
RQ4在循环与非周期性动作上，所提出的DAE-LSTM模型相较于最先进方法，在长时序动作预测中的表现如何？

主要发现

DAE-LSTM模型在循环动作（如行走）中可生成超过10秒的自然动作序列，在非周期性动作（如进食）中可生成超过2秒的序列，显著优于先前方法在长期稳定性方面的表现。
在H3.6M和Holden数据集上，DAE-LSTM在短时序与长时序的姿势预测精度方面，均优于三层LSTM基线模型以及两种最先进模型（ERD及其他模型）。
动作分类器评估协议成功区分了高质量、一致的动作序列与退化或漂移的序列，DAE-LSTM在行走序列中可保持正确动作类别概率超过10秒。
对于进食动作，模型初始阶段可能将动作误判为“就坐”，但当手部动作变得明显时，能正确分类为“进食”，表明模型对动作动态具有敏感性。
模型表现出极小的漂移，维持了感知上的合理性，尽管生成序列中存在轻微后仰现象，表明其缺乏重力或平衡约束，导致物理真实性不足。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。