Skip to main content
QUICK REVIEW

[论文解读] Deep representation learning for human motion prediction and classification

Judith Bütepage, Michael J. Black|arXiv (Cornell University)|Feb 24, 2017
Human Pose and Action Recognition参考文献 21被引用 42
一句话总结

本文提出一种具有瓶颈结构的深度前馈自编码器,从大规模动捕数据集中学习3D人体运动的通用、低维表征,实现对多样化、未见动作的鲁棒预测与分类。该方法在运动预测方面优于最先进的一维循环模型,并能很好地泛化至缺失肢体数据,在无需针对特定动作微调的情况下展现出强大的可迁移性与鲁棒性。

ABSTRACT

Generative models of 3D human motion are often restricted to a small number of activities and can therefore not generalize well to novel movements or applications. In this work we propose a deep learning framework for human motion capture data that learns a generic representation from a large corpus of motion capture data and generalizes well to new, unseen, motions. Using an encoding-decoding network that learns to predict future 3D poses from the most recent past, we extract a feature representation of human motion. Most work on deep learning for sequence prediction focuses on video and speech. Since skeletal data has a different structure, we present and evaluate different network architectures that make different assumptions about time dependencies and limb correlations. To quantify the learned features, we use the output of different layers for action classification and visualize the receptive fields of the network units. Our method outperforms the recent state of the art in skeletal motion prediction even though these use action specific training data. Our results show that deep feedforward networks, trained from a generic mocap database, can successfully be used for feature extraction from human motion data and that this representation can be used as a foundation for classification and prediction.

研究动机与目标

  • 开发一种不局限于预定义动作小集合的可泛化、无监督人体运动表征。
  • 利用大规模运动捕捉数据语料库训练的通用模型,实现3D人体运动的长期准确预测。
  • 构建一种支持零样本动作分类且在缺失数据条件下具备鲁棒推理能力的特征表征。
  • 探究全连接网络结合结构先验(时间卷积与分层图结构)在建模人体运动动力学方面的有效性。
  • 证明前馈网络在保持低计算复杂度的同时,可在运动预测中超越循环模型。

提出的方法

  • 训练一个具有瓶颈层的深度自编码器,从过去姿态的固定长度窗口中重建未来的3D关节姿态。
  • 该模型采用全连接编码器-解码器架构,无循环结构,依赖固定的时间上下文窗口来捕捉长期依赖关系。
  • 探索了三种变体:对称网络、时间卷积编码器(C-TE)以及基于分层图结构的编码器(H-TE),用于建模肢体间的相关性。
  • 分层结构通过尊重肢体分组关系的全连接图,编码人体解剖拓扑结构。
  • 模型在CMU动捕数据集上端到端训练,学习瓶颈层中的紧凑且解耦的表征。
  • 中间层的特征表征用于动作分类,同时可视化感受野以解释学习到的单元。

实验结果

研究问题

  • RQ1深度前馈自编码器能否从大规模、多样的动捕数据集中学习到可泛化的、低维的人体运动表征?
  • RQ2前馈网络在长期人体运动预测中的性能与循环模型(如LSTM)相比如何?
  • RQ3所学表征在未见动作和训练数据中未出现的受试者上,其泛化能力有多强?
  • RQ4在预测过程中,模型能否推断缺失肢体姿态,从而体现对不完整输入的鲁棒性?
  • RQ5不同结构先验(时间卷积与分层图连接)对所学运动表征质量的影响如何?

主要发现

  • 所提出的前馈自编码器在3D人体运动预测方面优于最先进的一维循环模型,即使在无需动作特定微调的情况下亦然。
  • 该模型在未见动作和受试者上泛化良好,展现出在多样化运动模式间强大的可迁移性。
  • 在测试缺失肢体数据(如右臂或左腿)时,模型保持较低预测误差,与完整输入相比误差仅增加约0.1,表明其具备强鲁棒性。
  • 分层时间编码器(H-TE)表现最佳,'eating'动作的160ms预测误差为0.20,优于对称与卷积变体。
  • 感受野可视化显示,学习到的单元对有意义的运动模式(如抬手或抬腿)有响应,证实了结构化特征学习的存在。
  • 瓶颈层表征支持高精度的零样本动作分类,证明其作为通用运动特征提取器的实用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。