Skip to main content
QUICK REVIEW

[论文解读] Construct Dynamic Graphs for Hand Gesture Recognition via Spatial-Temporal Attention

Yuxiao Chen, L. Zhao|arXiv (Cornell University)|Jul 20, 2019
Hand Gesture Recognition Systems参考文献 37被引用 31
一句话总结

本文提出动态图注意力机制(DG-STA),通过从手部骨骼序列中学习动态的、注意力驱动的图结构,以提升手势识别性能。该方法在全连接图上应用时空自注意力机制,自适应地学习边权重与节点特征,在DHG-14/28和SHREC’17基准上分别取得91.9%和94.4%的top-1准确率,达到当前最优性能,同时通过一种新颖的时空掩码将计算量降低99%。

ABSTRACT

We propose a Dynamic Graph-Based Spatial-Temporal Attention (DG-STA) method for hand gesture recognition. The key idea is to first construct a fully-connected graph from a hand skeleton, where the node features and edges are then automatically learned via a self-attention mechanism that performs in both spatial and temporal domains. We further propose to leverage the spatial-temporal cues of joint positions to guarantee robust recognition in challenging conditions. In addition, a novel spatial-temporal mask is applied to significantly cut down the computational cost by 99%. We carry out extensive experiments on benchmarks (DHG-14/28 and SHREC'17) and prove the superior performance of our method compared with the state-of-the-art methods. The source code can be found at https://github.com/yuxiaochen1103/DG-STA.

研究动机与目标

  • 为解决固定结构图在捕捉动态手部手势变化方面的局限性。
  • 通过显式建模手部关节点序列中的空间与时间依赖关系,提升基于骨架的手势识别性能。
  • 在不损失性能的前提下,降低图神经网络模型的计算成本。
  • 开发一种可泛化的图神经网络框架,用于人体动作理解中的序列建模。

提出的方法

  • 从手部骨架关节点构建全连接图,其中节点表示关节点,边权重通过自注意力机制动态学习。
  • 在时空维度上联合优化边权重与节点特征,应用时空自注意力机制。
  • 引入时空位置嵌入以编码关节点身份与时间顺序,增强特征表示能力。
  • 提出一种新颖的时空掩码机制,抑制无关注意力分数,使FLOPs降低99%。
  • 在注意力模块中采用可学习的查询-键-值机制,以自适应地聚焦于随时间变化的相关关节点关系。
  • 以3D关节点坐标序列为输入,图结构随动作动态演化,提升模型表达能力。

实验结果

研究问题

  • RQ1通过自注意力机制实现动态图构建,是否能超越固定结构图,在手势识别上取得更优性能?
  • RQ2时空注意力机制在多大程度上能有效建模手部手势中的空间构型与时间动态?
  • RQ3时空掩码在多大程度上可降低计算成本,同时保持识别准确率?
  • RQ4所提出方法在包含噪声或变长序列的挑战性数据集上是否具备良好的泛化能力?

主要发现

  • DG-STA在DHG-14/28数据集上达到91.9%的准确率,超越此前SOTA方法ST-GCN(91.2%)与STA-Res-TCN(89.2%)。
  • 在更具挑战性的SHREC’17 Track数据集上,DG-STA在14种手势设置下取得94.4%的准确率,优于所有先前方法。
  • 通过所提出的时空掩码,该方法将计算成本降低99%,实现了对长序列的高效推理。
  • 时空位置嵌入通过编码关节点身份与时间顺序,提升了性能,增强了注意力机制的精度。
  • DG-STA显著优于未显式建模空间与时间结构的方法,证实了其在手势识别中的关键作用。
  • 该模型具备良好泛化能力,在28种手势的SHREC’17设置下,尽管架构更简单,仍与STA-Res-TCN性能相当。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。