QUICK REVIEW

[论文解读] Dynamic Multiscale Graph Neural Networks for 3D Skeleton-Based Human Motion Prediction

Maosen Li, Siheng Chen|arXiv (Cornell University)|Mar 17, 2020

Human Pose and Action Recognition参考文献 49被引用 29

一句话总结

该论文提出动态多尺度图神经网络（DMGNN）用于基于3D骨骼的人体动作预测，采用自适应、动态的多尺度图来建模跨多个空间尺度的分层身体部位关系。该方法引入一种新型多尺度图计算单元（MGCU），结合单尺度和跨尺度图卷积，并在解码器中使用基于图的GRU，实现在Human 3.6M和CMU Mocap数据集上短时和长时预测的最先进性能。

ABSTRACT

We propose novel dynamic multiscale graph neural networks (DMGNN) to predict 3D skeleton-based human motions. The core idea of DMGNN is to use a multiscale graph to comprehensively model the internal relations of a human body for motion feature learning. This multiscale graph is adaptive during training and dynamic across network layers. Based on this graph, we propose a multiscale graph computational unit (MGCU) to extract features at individual scales and fuse features across scales. The entire model is action-category-agnostic and follows an encoder-decoder framework. The encoder consists of a sequence of MGCUs to learn motion features. The decoder uses a proposed graph-based gate recurrent unit to generate future poses. Extensive experiments show that the proposed DMGNN outperforms state-of-the-art methods in both short and long-term predictions on the datasets of Human 3.6M and CMU Mocap. We further investigate the learned multiscale graphs for the interpretability. The codes could be downloaded from https://github.com/limaosen0/DMGNN.

研究动机与目标

为解决现有方法在建模超越成对关节连接的复杂功能性身体部位关系方面的局限性。
构建一种分层的、多尺度的人体表示，以捕捉局部和全局的动作动态。
通过学习具有区分性的、对动作敏感的图结构而不依赖动作标签，实现与动作类别无关的动作预测。
通过将高阶运动差异（速度、加速度）作为输入代理，提升长时动作预测性能。
通过可学习的基于图的GRU改进姿态生成，实现具有结构化状态传播的时序依赖建模。

提出的方法

提出一种动态多尺度图表示，其中节点代表多个尺度的身体组件（如手、手臂、躯干），边用于建模尺度内及跨尺度的关系。
引入多尺度图计算单元（MGCU），包含用于尺度特异性特征提取的单尺度图卷积模块（SS-GCB）和用于尺度间特征传输与融合的跨尺度融合模块（CS-FB）。
采用自适应、可训练的图拓扑结构，随网络层动态演化，使模型在训练过程中学习对运动敏感的结构关系。
在CS-FB中使用相对特征表示，以提升跨尺度特征对齐与融合性能。
在编码器和解码器中引入高阶运动差异（位置、速度、加速度）作为输入特征，以增强时序动态性。
在解码器中部署基于图的门控循环单元（G-GRU），利用可学习的图结构改进状态传播，实现未来姿态的生成。

实验结果

研究问题

RQ1动态多尺度图表示能否有效建模用于3D人体动作预测的分层身体部位关系？
RQ2在多个阶段集成跨尺度特征融合是否优于仅在编码器末端进行融合，从而提升长时动作预测性能？
RQ3在基于图的序列模型中，高阶运动差异（如速度、加速度）对预测精度有何影响？
RQ4在无动作类别监督的情况下，所学习的多尺度图在多大程度上能捕捉具有区分性的、与动作相关的模式？
RQ5与标准RNN相比，所提出的基于图的GRU在动作预测任务中能否提升时序建模与姿态生成性能？

主要发现

DMGNN在Human 3.6M和CMU Mocap数据集上均达到最先进性能，在使用0、1和2阶运动差异时，于Human 3.6M数据集上400 ms处的平均绝对误差（MAE）为0.27 m。
采用两个跨尺度融合模块（CS-FBs）的模型表现最佳，优于配置为零个、一个或三个CS-FBs的模型，表明在特征融合与信息冗余之间实现了最优平衡。
在CS-FB中使用相对特征相比非相对特征，可将MAE降低最多0.06 m，验证了其在跨尺度对齐中的有效性。
当采用三个尺度和两个CS-FBs时，最终融合系数λ = 0.6，达到最低MAE，表明模型具有鲁棒性并实现了最优尺度融合。
第二层CS-FB中学习到的跨尺度图在动作识别中表现出更高的判别能力（准确率为40.1%），高于第一层CS-FB（28.6%），表明实现了更深层次的功能结构学习。
在所有对比方法中，DMGNN在编码器特征上实现了最高的动作分类准确率（45.7%），证实其能够学习到与类别无关的、具有区分性的运动表征。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。