QUICK REVIEW

[论文解读] STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention Transformer for Skeleton-based Action Recognition

N. Long|arXiv (Cornell University)|Dec 6, 2023

Human Pose and Action Recognition被引用 8

一句话总结

STEP CATFormer 将体支跨注意力与时间变换器与基于 CTR-GCN 的特征结合，在骨架动作识别基准 NTU RGB+D 60/120 上达到最先进的性能。

ABSTRACT

Graph convolutional networks (GCNs) have been widely used and achieved remarkable results in skeleton-based action recognition. We think the key to skeleton-based action recognition is a skeleton hanging in frames, so we focus on how the Graph Convolutional Convolution networks learn different topologies and effectively aggregate joint features in the global temporal and local temporal. In this work, we propose three Channel-wise Tolopogy Graph Convolution based on Channel-wise Topology Refinement Graph Convolution (CTR-GCN). Combining CTR-GCN with two joint cross-attention modules can capture the upper-lower body part and hand-foot relationship skeleton features. After that, to capture features of human skeletons changing in frames we design the Temporal Attention Transformers to extract skeletons effectively. The Temporal Attention Transformers can learn the temporal features of human skeleton sequences. Finally, we fuse the temporal features output scale with MLP and classification. We develop a powerful graph convolutional network named Spatial Temporal Effective Body-part Cross Attention Transformer which notably high-performance on the NTU RGB+D, NTU RGB+D 120 datasets. Our code and models are available at https://github.com/maclong01/STEP-CATFormer

研究动机与目标

通过学习关节和身体部位之间的动态、具辨别性的时空关系，提升骨架动作识别的能力。
提出一种混合架构，将基于 CTR-GCN 的动态通道拓扑与 Transformer 的时序建模相结合。
捕捉上肢-下肢部位与手足关系，并有效融合时序特征，以实现鲁棒的动作分类。
通过将 STEP-CATFormer 与主干编码器解耦，展示其对不同模型的泛化能力，并在多种模型上实现一致的增益。

提出的方法

在 CTR-GCN 的基础上扩展两种跨注意力模块，以建模在空间维度上的人体部位关系。
提出单部位跨注意力（SBCA）与多部位跨注意力（MBCA）块，在大维度分支与小维度分支之间进行跨注意力。
引入超动态时态注意力（SDTA），通过时序注意力 Transformer 提取并融合时序骨架特征。
使用时序融合机制和带全局平均池化的多层感知机（MLP）进行最终分类。
在 STEP CATFormer 路径中采用四分支融合策略（SBCA、MBCA、SDTA 和 MLP），生成最终类别 logits。

实验结果

研究问题

RQ1动态体部跨注意力与时序变换器是否可以在 CTR-GCN 基线之上进一步提升骨架动作识别性能？
RQ2将关节分成不同身体部位（手/腿 vs 手腕/踝等）对识别性能有何影响？
RQ3SBCA、MBCA 和 SDTA 组件对整体准确率及对不同主干的泛化有何贡献？
RQ4将 STEP-CATFormer 应用于不同主干（如 ST-GCN、CTR-GCN、LST）时，是否在推理成本无额外开销的前提下提供一致增益？

主要发现

在 NTU RGB+D 60/120 基准上评估时，STEP-CATFormer 相对于 CTR-GCN 基线表现出改进。
六部跨注意力在 X-sub 实验中达到峰值性能（在某些配置下为 86.0%）。
将 SBCA、MBCA、SDTA 与查询-类别分类器逐步整合，可将 CTR-GCN 基线（84.6%）提升至 86.0%（X-sub 评估）。
采用 LST 主干的 STEP-CATFormer 在 NTU-60 X-sub 达到 93.2%，NTU-60 X-view 达到 97.3%，在报告的集成中 NTU-60 X-sub/NTU-60 X-view 分别为 90.0% 和 91.2%，NTU-120 X-sub 为 90.0%，NTU-120 X-set 为 91.2%。
STEP-CATFormer 在多种主干（包括 ST-GCN、CTR 基线、CTR-GCN 与 LST）上持续带来改进，增益介于 0.4% 到 2.0%，且无额外推理成本。
在 NTU RGB+D 120 上，STEP-CATFormer 在大多数基准中超越了基于变换器的最新方法，尤其在跨 Subjects 与跨 Sets 的评估中表现突出。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。