QUICK REVIEW

[论文解读] Skeleton-based Action Recognition Using LSTM and CNN

Chuankun Li, Pichao Wang|arXiv (Cornell University)|Jul 6, 2017

Human Pose and Action Recognition参考文献 2被引用 28

一句话总结

该论文提出了一种基于骨架的动作识别方法，通过融合3D卷积神经网络（CNN）和长短期记忆网络（LSTM）的特征，有效捕捉空间与时间信息。通过在LSTM中使用空间特征（相对位置、关节距离、线距离），在CNN中使用时间表示（关节轨迹图与距离图），并采用后期得分融合——特别是CNN与LSTM之间的多重融合得分——该方法在跨视角NTU RGB+D评估中实现了90.10%的最先进准确率，在大规模挑战中达到87.40%的准确率。

ABSTRACT

Recent methods based on 3D skeleton data have achieved outstanding performance due to its conciseness, robustness, and view-independent representation. With the development of deep learning, Convolutional Neural Networks (CNN) and Long Short Term Memory (LSTM)-based learning methods have achieved promising performance for action recognition. However, for CNN-based methods, it is inevitable to loss temporal information when a sequence is encoded into images. In order to capture as much spatial-temporal information as possible, LSTM and CNN are adopted to conduct effective recognition with later score fusion. In addition, experimental results show that the score fusion between CNN and LSTM performs better than that between LSTM and LSTM for the same feature. Our method achieved state-of-the-art results on NTU RGB+D datasets for 3D human action analysis. The proposed method achieved 87.40% in terms of accuracy and ranked $1^{st}$ place in Large Scale 3D Human Activity Analysis Challenge in Depth Videos.

研究动机与目标

解决基于CNN的方法在将3D骨架序列转换为2D图像表示时难以保留时间信息的局限性。
克服RNN（包括LSTM）在融合多种特征类型时无法有效区分有用信息的缺陷。
通过利用CNN（空间特征提取）与LSTM（时间建模）的互补优势，提升动作识别准确率。
在基于骨架数据的3D人体动作识别基准数据集上实现最先进性能。

提出的方法

提取三种空间域特征：关节相对位置（R）、成对关节距离（J）和关节到骨架线的距离（L），分别输入独立的LSTM网络。
通过在三个平面（xy、xz、yz）上生成关节轨迹图（JTM）和关节距离图（JDM），构建时间域表示，并将这些表示输入独立的2D CNN。
采用后期得分融合策略，结合多个CNN与LSTM模型的预测结果，其中多重得分融合优于平均或最大值融合。
采用两阶段融合策略：第一阶段对不同LSTM通道（R、J、L）的得分进行融合；第二阶段对同一特征类型的CNN与LSTM输出进行融合。
采用10流架构：三个LSTM流用于空间特征，七个CNN流用于时间图，各流独立训练后再进行融合。
采用逐元素相乘的方式进行得分融合，以增强互补信息，相比简单平均或最大池化，显著提升鲁棒性与准确率。

实验结果

研究问题

RQ1与同类型模型内部融合相比，CNN与LSTM模型之间的后期得分融合是否能提升动作识别准确率？
RQ2在LSTM中使用多种空间特征类型（R、J、L）是否优于仅使用单一特征类型？
RQ3基于CNN的时间图处理与基于LSTM的空间特征处理相结合，在捕捉互补时空模式方面是否有效？
RQ4在基于骨架的动作识别中，CNN与LSTM流的多重融合得分是否优于平均或最大值融合策略？
RQ5所提方法是否在NTU RGB+D等标准基准数据集及大规模挑战中实现最先进性能？

主要发现

所提方法在NTU RGB+D数据集的跨视角划分上达到90.10%的准确率，优于表2中列出的所有先前方法。
在深度视频中的大规模3D人体活动分析挑战中排名第一，准确率达87.40%，证实了其在真实场景中的有效性。
CNN与LSTM模型之间的多重得分融合（All-Mul-Score融合）达到90.10%的准确率，显著优于平均融合（89.03%）和最大值融合（86.03%）策略。
将关节距离图（JDM-xyz）与CNN结合，并与LSTM输出融合（R-JDM-xyz-Mul-Score），准确率提升至83.05%，证明了跨模型融合的价值。
通过多重得分融合将R、J、L特征联合使用于LSTM模型（R-J-L-Mul-Score），在跨视角设置下达到85.35%的准确率，表明多特征融合在合理组合下具有显著效果。
该方法优于基于手工设计特征的方法（如Lie Group、Dynamic Skeletons）以及深度学习模型（如ST-LSTM、Clips+CNN+MTLN），证实其在泛化能力与性能上的优越性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。