Skip to main content
QUICK REVIEW

[论文解读] Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

Ziyu Liu, Hongwen Zhang|arXiv (Cornell University)|Mar 31, 2020
Human Pose and Action Recognition参考文献 53被引用 89
一句话总结

Introduces MS-G3D, a disentangled multi-scale spatial-temporal graph convolutional approach with G3D that unifies cross-spacetime modeling, achieving state-of-the-art results on NTU RGB+D 60/120 and Kinetics Skeleton 400.

ABSTRACT

Spatial-temporal graphs have been widely used by skeleton-based action recognition algorithms to model human action dynamics. To capture robust movement patterns from these graphs, long-range and multi-scale context aggregation and spatial-temporal dependency modeling are critical aspects of a powerful feature extractor. However, existing methods have limitations in achieving (1) unbiased long-range joint relationship modeling under multi-scale operators and (2) unobstructed cross-spacetime information flow for capturing complex spatial-temporal dependencies. In this work, we present (1) a simple method to disentangle multi-scale graph convolutions and (2) a unified spatial-temporal graph convolutional operator named G3D. The proposed multi-scale aggregation scheme disentangles the importance of nodes in different neighborhoods for effective long-range modeling. The proposed G3D module leverages dense cross-spacetime edges as skip connections for direct information propagation across the spatial-temporal graph. By coupling these proposals, we develop a powerful feature extractor named MS-G3D based on which our model outperforms previous state-of-the-art methods on three large-scale datasets: NTU RGB+D 60, NTU RGB+D 120, and Kinetics Skeleton 400.

研究动机与目标

  • 通过在骨架图中捕捉长程和多尺度上下文来推动鲁棒的基于骨架的动作识别。
  • 提出解耦的多尺度聚合,以消除偏差并增强长程关节关系。
  • 引入统一的时空 G3D 运算符,以实现直接的跨时空信息流。
  • 将这些思路整合到 MS-G3D 中,在大规模数据集上超越先前的最先进方法。

提出的方法

  • 使用 k-hop 邻域以及专用的 A_(k) 矩阵进行解耦的多尺度聚合,以避免来自更近节点的偏差。
  • G3D:在分块的时空图上,通过跨时空跳跃连接实现的统一时空图卷积。
  • 通过将解耦的时空聚合与跨时空连接及扩张时间窗相结合,形成多尺度 G3D (MS-G3D)。
  • 自适应图残差掩码 A^res,用于按尺度和上下文动态调整边的影响。
  • 使用关节和骨架的双流融合以提升判别能力。
  • 通过多尺度的 TCN 类分支和瓶颈设计增强时序建模。

实验结果

研究问题

  • RQ1如何通过解耦的多尺度图聚合来改进骨架图中长程关节关系的建模?
  • RQ2统一的时空图卷积(G3D)能否实现跨空间与时间的无障碍信息流?
  • RQ3将解耦聚合与 G3D(MS-G3D)整合是否在大型骨架数据集上带来更好的动作识别性能?
  • RQ4引入跨时空边和多尺度时序建模对基于骨架的动作识别有哪些好处?

主要发现

  • MS-G3D 在 NTU RGB+D 60、NTU RGB+D 120 和 Kinetics Skeleton 400 上优于此前的最先进方法。
  • 解耦的多尺度聚合在简单邻接控制之上提供显著增益,特别是在较大尺度(K 最大到 12)时。
  • G3D 改善跨时空学习,与解耦聚合结合时,产生稳健的多尺度时空特征。
  • MS-G3D 在各数据集上达到有竞争力或领先的准确率:NTU RGB+D 60 (X-Sub 91.5%,X-View 96.2%),NTU RGB+D 120 (X-Sub 86.9%,X-Set 88.4%),以及 Kinetics Skeleton 400 (Top-1 38.0%,Top-5 60.9%)。
  • 自适应图残差掩码和骨骼/关节点双流融合进一步提升性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。