Skip to main content
QUICK REVIEW

[论文解读] Memory Attention Networks for Skeleton-based Action Recognition

Chunyu Xie, Ce Li|arXiv (Cornell University)|Apr 23, 2018
Human Pose and Action Recognition参考文献 15被引用 26
一句话总结

本文提出记忆注意力网络(MANs),一种用于基于骨骼的动作识别的端到端深度学习框架,结合了通过时间注意力重校准模块(TARM)实现的时间注意力重校准,以及通过空间-时间卷积模块(STCM)实现的空间-时间特征学习。MANs在四个基准数据集上达到最先进性能,包括在NTU RGB+D(跨视角)上达到93.22%的准确率,在UT-Kinect上达到100%,展现出对骨骼数据中空间-时间变化的卓越鲁棒性。

ABSTRACT

Skeleton-based action recognition task is entangled with complex spatio-temporal variations of skeleton joints, and remains challenging for Recurrent Neural Networks (RNNs). In this work, we propose a temporal-then-spatial recalibration scheme to alleviate such complex variations, resulting in an end-to-end Memory Attention Networks (MANs) which consist of a Temporal Attention Recalibration Module (TARM) and a Spatio-Temporal Convolution Module (STCM). Specifically, the TARM is deployed in a residual learning module that employs a novel attention learning network to recalibrate the temporal attention of frames in a skeleton sequence. The STCM treats the attention calibrated skeleton joint sequences as images and leverages the Convolution Neural Networks (CNNs) to further model the spatial and temporal information of skeleton data. These two modules (TARM and STCM) seamlessly form a single network architecture that can be trained in an end-to-end fashion. MANs significantly boost the performance of skeleton-based action recognition and achieve the best results on four challenging benchmark datasets: NTU RGB+D, HDM05, SYSU-3D and UT-Kinect.

研究动机与目标

  • 解决骨骼序列中复杂的空间-时间变化挑战,如动作速度、抖动和环境干扰。
  • 克服RNN在建模长距离依赖关系和选择判别性关节点方面的局限性。
  • 将注意力机制与CNN结合,通过联合建模时间与空间结构来增强特征表示。
  • 设计一种端到端可训练的架构,在保持网络深度与复杂性灵活性的同时提升识别准确率。
  • 验证时间-空间分阶段重校准策略在多样化数据集上的鲁棒性动作识别有效性。

提出的方法

  • 提出时间注意力重校准模块(TARM),通过新型注意力学习网络在骨骼序列帧间应用残差学习来重校准注意力权重。
  • 引入空间-时间卷积模块(STCM),将注意力校准后的骨骼序列视为类似2D的特征图,并应用CNN来建模空间与时间依赖性。
  • 设计统一的端到端架构,将TARM嵌入残差块中,以保持梯度流动并增强特征学习。
  • 在TARM中引入记忆机制,以在帧之间存储和更新上下文感知信息,提升时间建模能力。
  • 在STCM中采用多种CNN架构(如ResNet-18、DenseNet-161)以探索模型深度与性能之间的权衡。
  • 使用标准反向传播端到端训练整个网络,实现注意力与卷积特征的联合优化。

实验结果

研究问题

  • RQ1与标准RNN相比,记忆增强的注意力机制是否能提升基于骨骼的动作识别中的时间建模能力?
  • RQ2两阶段重校准策略——先优化时间注意力,再应用CNN进行空间-时间特征学习——是否优于单阶段模型?
  • RQ3注意力与CNN的融合在应对运动速度和抖动等空间-时间变化时,对鲁棒性有何影响?
  • RQ4所提出的MANs架构在具有不同复杂度与噪声水平的多样化数据集上,其泛化能力如何?
  • RQ5在最大化识别准确率且避免过拟合的前提下,STCM中网络深度与模型复杂度之间应如何达到最优平衡?

主要发现

  • MANs-9在NTU RGB+D的跨主体协议下达到83.01%的准确率,较先前最先进RNN方法提升3.44%。
  • MANs(DenseNet-161)在NTU RGB+D的跨视角协议下达到93.22%的准确率,较现有方法提升5.62%。
  • 在HDM05数据集上,MANs(ResNet-18)达到99.04%的准确率,优于多层RNN,展现出更优的运动建模能力。
  • 在SYSU-3D数据集上,MANs-61较先前最佳方法(GCA-LSTM)提升9.03%,验证了时间-空间分阶段重校准策略的有效性。
  • 在UT-Kinect数据集上,MANs-9与MANs(ResNet-18)均达到100%准确率,较先前最先进方法GCA-LSTM提升1.0%。
  • 参数更少的MANs(如MANs-9)优于更深的RNN(如Deep LSTM),表明其具有更高的参数效率与更强的特征学习能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。