Skip to main content
QUICK REVIEW

[论文解读] Part-based Graph Convolutional Network for Action Recognition

Kalpit Thakkar, P. J. Narayanan|arXiv (Cornell University)|Sep 13, 2018
Human Pose and Action Recognition参考文献 1被引用 132
一句话总结

本论文提出 PB-GCN,一种将人体骨架分割为身体部位的基于部件的图卷积网络,使用几何和运动特征,并在 NTURGB+D 和 HDM05 的骨架动作识别中达到最新成绩。

ABSTRACT

Human actions comprise of joint motion of articulated body parts or `gestures'. Human skeleton is intuitively represented as a sparse graph with joints as nodes and natural connections between them as edges. Graph convolutional networks have been used to recognize actions from skeletal videos. We introduce a part-based graph convolutional network (PB-GCN) for this task, inspired by Deformable Part-based Models (DPMs). We divide the skeleton graph into four subgraphs with joints shared across them and learn a recognition model using a part-based graph convolutional network. We show that such a model improves performance of recognition, compared to a model using entire skeleton graph. Instead of using 3D joint coordinates as node features, we show that using relative coordinates and temporal displacements boosts performance. Our model achieves state-of-the-art performance on two challenging benchmark datasets NTURGB+D and HDM05, for skeletal action recognition.

研究动机与目标

  • 通过部件化视角激发使用骨骼数据进行动作识别,以捕捉部件间的关系和部件内部的关系。
  • 提出 PB-GCN,将骨架图划分为具有共享顶点的子图并学习部件级卷积。
  • 证明使用几何特征(相对坐标)和运动特征(时间位移)能比原始的3D关节点坐标提高识别性能。
  • 在 NTURGB+D 和 HDM05 数据集上实现了最先进的性能。

提出的方法

  • 为具有已知分区属性的图定义通用的基于部件的图卷积网络(PB-GCN)。
  • 将骨架图分成表示身体部位的多个重叠子图(例如,轴向和附肢部分)。
  • 对每个部件独立执行空间卷积,然后通过跨部件的学习融合函数 F_agg 进行聚合。
  • 通过在每个部件内及跨帧在时间上连接关节点,将其扩展到时空图,随后进行时卷积。
  • 将相对坐标和时间位移作为节点特征连接起来,而不是原始的3D关节点坐标。
  • 引入可学习的边权掩码和残差连接,遵循类似 ResNet 的架构,配有 9 SP-Temporal GCN 单元。

实验结果

研究问题

  • RQ1将骨架图分割成有意义的身体部位,是否能够比将骨架视为单个图来提高动作识别?
  • RQ2当与 PB-GCN 一起使用时,几何特征(相对坐标)和运动特征(时间位移)是否能提升骨骼动作识别?
  • RQ3不同部件配置(1、2、4、6 部分)对识别精度有何影响?
  • RQ4PB-GCN 与在 NTURGB+D 和 HDM05 数据集上最先进的基于图的骨骼动作识别方法相比如何?

主要发现

  • PB-GCN 采用四个部件在 NTURGB+D 上的准确率高于单部件和其他分区方案。
  • 将相对坐标和时间位移(D_R || D_T)结合使用,在所有测试信号中达到最佳性能,尤其在部件更多时更明显。
  • PB-GCN 在 NTURGB+D 和 HDM05 上超越了以往的基于图的骨骼动作识别方法,达到最先进的结果。
  • 几何与运动线索带来显著提升,时间位移对性能有显著贡献。
  • 可以配置跨部件共享或分离的卷积核;通过 F_agg 的部件级聚合有效融合来自多个部件的信息。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。