QUICK REVIEW

[论文解读] Spatio-Temporal Graph Convolution for Skeleton Based Action Recognition

Chaolong Li, Zhen Cui|arXiv (Cornell University)|Feb 27, 2018

Human Pose and Action Recognition参考文献 43被引用 31

一句话总结

本文提出了一种时空图卷积（STGC）模型，通过结合局部卷积滤波与递归序列学习，实现基于骨骼的动作识别。通过基于邻接矩阵多项式展开的多尺度图卷积核以及信号映射，STGC 同时捕捉动态运动与空间结构，在四个基准数据集上实现最先进性能，包括在 NTU RGB+D 数据集上达到 86.28% 的跨主体准确率。

ABSTRACT

Variations of human body skeletons may be considered as dynamic graphs, which are generic data representation for numerous real-world applications. In this paper, we propose a spatio-temporal graph convolution (STGC) approach for assembling the successes of local convolutional filtering and sequence learning ability of autoregressive moving average. To encode dynamic graphs, the constructed multi-scale local graph convolution filters, consisting of matrices of local receptive fields and signal mappings, are recursively performed on structured graph data of temporal and spatial domain. The proposed model is generic and principled as it can be generalized into other dynamic models. We theoretically prove the stability of STGC and provide an upper-bound of the signal transformation to be learnt. Further, the proposed recursive model can be stacked into a multi-layer architecture. To evaluate our model, we conduct extensive experiments on four benchmark skeleton-based action datasets, including the large-scale challenging NTU RGB+D. The experimental results demonstrate the effectiveness of our proposed model and the improvement over the state-of-the-art.

研究动机与目标

解决使用深度学习建模人体动作识别中不规则、动态骨骼结构的挑战。
通过整合局部卷积滤波与递归学习，克服现有图神经网络方法与 RNN 方法的局限性。
构建一种原理清晰、稳定且可泛化的模型，用于动态图序列，并提供理论保证。
提升在大规模、复杂数据集（如 NTU RGB+D）上的性能，其中跨主体泛化仍是主要挑战。

提出的方法

利用邻接矩阵的多项式展开设计多尺度图卷积核，以定义局部感受野。
应用信号映射将每个感受野内的特征进行变换，实现在动态图上的特征学习。
采用受自回归移动平均（ARMA）启发的架构，递归地整合时空滤波。
通过理论分析确保模型稳定性，为信号变换提供上界。
将 STGC 模块堆叠为深层多层架构，以增强表征能力。
采用递归公式在时间上处理隐藏状态，结合运动变化编码与空间特征提取。

实验结果

研究问题

RQ1是否能够设计一个统一框架，有效结合局部卷积滤波与递归序列建模，以处理动态骨骼图？
RQ2如何设计图卷积核，以确保对同构图结构的不变性，同时捕捉多尺度时空动态？
RQ3所提出的递归图卷积模型在稳定性和收敛性方面可提供哪些理论保证？
RQ4所提出的 STGC 模型在大规模、复杂基于骨骼的动作识别基准上，相较于现有最先进方法的性能提升程度如何？

主要发现

所提出的 STGC 模型在 Florence 3D 数据集上达到 99.07% 的准确率，接近完美性能。
在大规模 NTU RGB+D 数据集上，STGC 实现 86.28% 的跨主体准确率，较之前最先进方法（GCA-LSTM）提升 3.48 个百分点。
在 Florence 数据集上，该模型比图核方法高出超过 7%，证明了递归卷积架构的优势。
在所有四个基准数据集上，采用两层堆叠 STGC 层的深层架构表现最佳，证实了分层设计的可扩展性与有效性。
即使未在 ImageNet 上进行预训练，STGC 仍优于将骨骼转化为图像的 CNN 方法，凸显其对骨骼数据更优越的归纳偏置。
STGC K (dep.) 变体（建模跨尺度信号交互）略胜于独立信号版本，证实了尺度间特征交互的益处。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。