[论文解读] Decoupled Spatial-Temporal Attention Network for Skeleton-Based Action Recognition
该论文提出了一种解耦的空间-时间注意力网络(DSTA-Net),用于基于骨骼的动作识别,其利用自注意力机制,无需依赖手工设计的图拓扑结构或遍历规则。通过解耦空间与时间注意力、应用独立的位置编码,并引入空间全局正则化,DSTA-Net在四个基准数据集上实现了最先进性能,包括在SHREC上达到97.0%的准确率,在NTU-120上达到86.6%。
Dynamic skeletal data, represented as the 2D/3D coordinates of human joints, has been widely studied for human action recognition due to its high-level semantic information and environmental robustness. However, previous methods heavily rely on designing hand-crafted traversal rules or graph topologies to draw dependencies between the joints, which are limited in performance and generalizability. In this work, we present a novel decoupled spatial-temporal attention network(DSTA-Net) for skeleton-based action recognition. It involves solely the attention blocks, allowing for modeling spatial-temporal dependencies between joints without the requirement of knowing their positions or mutual connections. Specifically, to meet the specific requirements of the skeletal data, three techniques are proposed for building attention blocks, namely, spatial-temporal attention decoupling, decoupled position encoding and spatial global regularization. Besides, from the data aspect, we introduce a skeletal data decoupling technique to emphasize the specific characteristics of space/time and different motion scales, resulting in a more comprehensive understanding of the human actions.To test the effectiveness of the proposed method, extensive experiments are conducted on four challenging datasets for skeleton-based gesture and action recognition, namely, SHREC, DHG, NTU-60 and NTU-120, where DSTA-Net achieves state-of-the-art performance on all of them.
研究动机与目标
- 解决先前基于骨骼的动作识别方法中手工设计图拓扑结构和遍历规则的局限性。
- 在不预先假设结构的前提下,实现对骨骼序列中空间与时间依赖关系的端到端建模。
- 通过引入领域特定的归纳偏置(如空间语义对齐和运动尺度敏感性)来提升模型的泛化能力与性能。
- 提供一个统一的纯注意力框架,其在多样化动作识别基准上优于现有方法。
提出的方法
- 将自注意力机制解耦为独立的空间与时间注意力模块,以分别建模空间与时间依赖关系,同时保持二者之间的交互。
- 为空间与时间维度引入解耦的位置编码,以提供位置感知能力,而无需假设关节点的顺序或连接关系。
- 应用空间全局正则化,通过利用身体关节点固定的语义角色,强制不同样本间保持一致的注意力模式。
- 采用骨骼数据解耦技术,将输入分解为空间(与运动无关)和时间(与运动相关)两个流,以实现对不同动作特性的专注学习。
- 通过早期或晚期融合策略,融合来自四个流(空间、时间、慢速时间、快速时间)的特征,以捕捉多尺度的运动与形状模式。
- 采用纯注意力架构,不使用RNN、CNN或GCN,仅依赖于带有可学习查询、键和值的多头自注意力机制。
实验结果
研究问题
- RQ1在不依赖手工设计拓扑结构的前提下,纯自注意力机制是否能在基于骨骼的动作识别中超越图神经网络或RNN基模型?
- RQ2如何独立而有效地建模骨骼序列中的空间与时间依赖关系,以保留其语义差异?
- RQ3在缺乏预定义关节点顺序或结构的前提下,解耦位置编码在多大程度上能提升注意力建模性能?
- RQ4通过强制在具有固定关节点语义的角色下保持一致的注意力模式,空间全局正则化在多大程度上能提升模型泛化能力?
- RQ5将骨骼数据解耦为空间与时间模态,是否能增强在多样化动作数据集上的特征学习与识别准确率?
主要发现
- 在14动作的SHREC数据集上,DSTA-Net达到97.0%的准确率,比之前的最先进方法(94.4%)高出2.6个百分点。
- 在28动作的DHG数据集上,DSTA-Net达到93.9%的准确率,超过先前最先进方法3.2个百分点。
- 在NTU-60上,DSTA-Net在跨主体和跨视角基准上分别达到91.5%和96.4%的准确率,分别超过先前最先进方法1.6%和0.3%。
- 在新发布的NTU-120数据集上,DSTA-Net在跨主体和跨设置基准上分别达到86.6%和89.0%的准确率,创下新的最先进基线。
- 消融实验表明,四流融合(空间、时间、慢速时间、快速时间)提供了互补性提升,其中空间流在基于形状的动作上表现更优,时间流在基于运动的动作上表现更优。
- 各类别准确率的可视化显示,空间流与时间流在不同动作类别上表现出专业化特征——例如,空间流擅长‘捏’和‘抓取’类动作,时间流擅长‘滑动’和‘摇晃’类动作——验证了模态间的互补性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。