[论文解读] Modeling Temporal Dynamics and Spatial Configurations of Actions Using Two-Stream Recurrent Neural Networks
该论文提出了一种双流循环神经网络(RNN),用于建模人体骨骼的时间动态和空间构型,以实现动作识别。通过分别使用RNN流处理时间演化和关节间空间关系——并结合3D数据增强技术——该方法在NTU RGB+D、SBU Interaction和ChaLearn Gesture数据集上取得了最先进(SOTA)的性能,准确率相比之前的方法最高提升2.1%。
Recently, skeleton based action recognition gains more popularity due to cost-effective depth sensors coupled with real-time skeleton estimation algorithms. Traditional approaches based on handcrafted features are limited to represent the complexity of motion patterns. Recent methods that use Recurrent Neural Networks (RNN) to handle raw skeletons only focus on the contextual dependency in the temporal domain and neglect the spatial configurations of articulated skeletons. In this paper, we propose a novel two-stream RNN architecture to model both temporal dynamics and spatial configurations for skeleton based action recognition. We explore two different structures for the temporal stream: stacked RNN and hierarchical RNN. Hierarchical RNN is designed according to human body kinematics. We also propose two effective methods to model the spatial structure by converting the spatial graph into a sequence of joints. To improve generalization of our model, we further exploit 3D transformation based data augmentation techniques including rotation and scaling transformation to transform the 3D coordinates of skeletons during training. Experiments on 3D action recognition benchmark datasets show that our method brings a considerable improvement for a variety of actions, i.e., generic actions, interaction activities and gestures.
研究动机与目标
- 解决现有基于RNN的方法仅建模骨架序列中时间依赖性、而忽略关节空间构型的局限性。
- 通过在序列化骨架图上使用RNN显式建模身体关节间的空间关系,提升动作识别准确率。
- 通过在训练过程中对3D骨架坐标应用基于3D变换的数据增强(旋转、缩放、剪切),提升模型泛化能力。
- 设计一种统一的、端到端可训练架构,通过晚期融合方式融合时间与空间表征,以提升动作识别性能。
- 在多样化动作识别基准上展示优越性能,涵盖通用动作、交互行为和手势识别。
提出的方法
- 该方法采用双流RNN架构:其中一通道通过在时间维度上堆叠或分层RNN处理关节坐标序列,以建模时间动态。
- 空间通道在将3D骨架图转换为关节序列前,采用两种不同策略以保持空间拓扑结构,随后输入RNN进行处理。
- 分层RNN基于人体运动学特性专门设计,以减少参数量,同时捕捉多层次运动模式。
- 模型通过晚期融合方式结合时间流与空间流的特征,再经由Softmax层进行最终分类。
- 在训练过程中,通过随机应用旋转、缩放和剪切变换于3D关节坐标,实现3D数据增强,以提升模型鲁棒性与泛化能力。
- 整个网络为端到端可训练结构,使用时间反向传播(backpropagation through time)联合优化两个流。

实验结果
研究问题
- RQ1同时建模骨架的时间动态与空间构型是否能超越仅建模时间序列的方法,从而提升动作识别性能?
- RQ2不同RNN架构(堆叠式 vs. 分层式)在建模骨架序列时,对性能与参数效率有何影响?
- RQ3将空间骨架图转换为序列用于基于RNN的空间依赖性建模,其有效性如何?
- RQ43D数据增强在提升骨架动作识别中泛化能力与鲁棒性方面,其作用程度如何?
- RQ5所提出的双流RNN架构是否在多样化动作识别基准上均达到最先进性能?
主要发现
- 在NTU RGB+D数据集中,双流RNN在跨被试评估中达到71.3%的准确率,在跨视角评估中达到79.5%,分别优于之前最先进方法(Trust Gate ST-LSTM)2.1%和1.8%。
- 在SBU Interaction数据集中,该方法达到94.8%的准确率,比最佳现有RNN方法高1.5%,比最佳手工特征方法高7.9%。
- 在ChaLearn手势识别数据集中,模型取得91.7%的F1-score,优于之前最先进方法(VideoDarwin)超过16%的F1-score。
- 模型对超参数选择具有鲁棒性:在广泛的时间窗口大小(τ)范围内性能保持稳定,当τ处于特定范围时性能达到最优。
- 分层RNN结构在减少模型参数量的同时,保持或提升了性能,展现出高效与有效并存的优势。
- 3D数据增强技术(旋转、缩放、剪切)显著提升了泛化能力并有效防止过拟合,尤其在小样本数据集上效果明显。
![Figure 2: (a) A two-layer stacked RNN for sequence classification. (b) A LSTM block with input, output, and forget gates [ 17 ] .](https://ar5iv.labs.arxiv.org/html/1704.02581/assets/x2.png)
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。