QUICK REVIEW

[论文解读] Investigation of Different Skeleton Features for CNN-based 3D Action Recognition

Zewei Ding, Pichao Wang|arXiv (Cornell University)|May 2, 2017

Human Pose and Action Recognition被引用 25

一句话总结

本文提出将多种空间骨骼特征（如关节-关节距离、向量、方向及线段夹角）编码为纹理彩色图像，用于基于卷积神经网络（CNN）的3D动作识别。通过探索多种特征类型、关节选择策略及编码方法，该方法在NTU RGB+D数据集的跨视角协议下实现了82.31%的最先进准确率，优于以往的CNN与RNN方法。

ABSTRACT

Deep learning techniques are being used in skeleton based action recognition tasks and outstanding performance has been reported. Compared with RNN based methods which tend to overemphasize temporal information, CNN-based approaches can jointly capture spatio-temporal information from texture color images encoded from skeleton sequences. There are several skeleton-based features that have proven effective in RNN-based and handcrafted-feature-based methods. However, it remains unknown whether they are suitable for CNN-based approaches. This paper proposes to encode five spatial skeleton features into images with different encoding methods. In addition, the performance implication of different joints used for feature extraction is studied. The proposed method achieved state-of-the-art performance on NTU RGB+D dataset for 3D human action analysis. An accuracy of 75.32\% was achieved in Large Scale 3D Human Activity Analysis Challenge in Depth Videos.

研究动机与目标

探究除基本关节位置与距离外，更丰富的空间骨骼特征在基于CNN的3D动作识别中是否有效。
评估不同关节选择策略在基于骨骼的动作识别中特征提取的性能影响。
比较多种将空间骨骼特征转换为纹理彩色图像的编码方法，以改善时空表征。
通过在编码的骨骼特征上训练的CNN框架，在NTU RGB+D数据集上实现最先进性能。
验证在多个基于不同特征类型与编码方案训练的CNN模型之间进行分数融合的有效性。

提出的方法

从2D和3D关节坐标中提取五类空间骨骼特征：关节-关节距离（JJd）、关节-关节向量（JJv）、关节-关节方向（JJo）、关节-线距离（JLd）以及线段-线段夹角（LLa）。
应用三种关节选择策略（JS1、JS2、JS3）以优先选择信息丰富的关节组合，其中JS3表现最优。
采用多种编码方法（EM1、EM2、EM3）将每类特征编码为纹理彩色图像，其中颜色表示特征幅值，空间布局编码关节间关系。
使用Caffe和多阶段学习率调度的随机梯度下降，在每类编码图像上分别训练CNN模型。
通过逐元素相乘的方式融合多个CNN的最终分类分数，以提升识别准确率。
通过脊柱长度缩放对关节坐标进行归一化，并转换至身体坐标系，以减少姿态变化的影响。

实验结果

研究问题

RQ1当编码为纹理图像时，哪些空间骨骼特征（如JJd、JJv、JLd）能生成最具判别性的表征？
RQ2不同关节选择策略（JS1、JS2、JS3）如何影响基于CNN的动作识别模型性能？
RQ3在将骨骼特征转换为彩色图像时，哪种编码方法（EM1、EM2、EM3）最能保持时空信息？
RQ4在多个基于不同特征类型与编码方案训练的CNN模型之间进行分数融合，能否提升整体识别准确率？
RQ5在基于CNN的3D动作识别中，更丰富的空间特征（如向量、夹角）是否优于更简单的特征（如距离）？

主要发现

关节-关节向量（JJv）特征在单模型中达到最高准确率69.02%，并在融合结果中贡献显著，达到75.23%。
关节-线距离（JLd）特征在整体性能上表现最佳，在最终融合模型中实现82.31%的准确率，超越所有基线方法。
JS3关节选择策略在所有特征类型中均持续优于JS1与JS2，表明选择性关节组合可减少噪声并提升鲁棒性。
所提方法在NTU RGB+D数据集的跨视角协议下实现了82.31%的最先进准确率，优于先前方法如ST-LSTM+Trust Gate（77.70%）与JTM（75.20%）。
在多个基于不同特征与编码方案训练的CNN模型之间进行分数融合，相比单个模型性能最高提升达10%，验证了多模态特征学习的优势。
使用纹理编码图像有效捕捉了空间与时间动态，验证了其作为基于骨骼的CNN动作识别输入的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。