QUICK REVIEW

[论文解读] Make Skeleton-based Action Recognition Model Smaller, Faster and Better

Fan Yang, Sakriani Sakti|arXiv (Cornell University)|Jul 23, 2019

Human Pose and Action Recognition参考文献 38被引用 28

一句话总结

该论文提出DD-Net，一种轻量级基于骨架的动作识别模型，在仅使用0.15百万个参数的情况下实现了最先进（SOTA）的准确率，单张GPU上最高可达3,500 FPS。通过结合一种与位置和视角无关的关节组距离（JCD）特征与双尺度全局运动特征，并采用1D CNN主干网络，DD-Net高效捕捉了局部关节关系与运动动态，在SHREC和JHMDB数据集上实现了卓越的速度、极小的模型尺寸与高准确率。

ABSTRACT

Although skeleton-based action recognition has achieved great success in recent years, most of the existing methods may suffer from a large model size and slow execution speed. To alleviate this issue, we analyze skeleton sequence properties to propose a Double-feature Double-motion Network (DD-Net) for skeleton-based action recognition. By using a lightweight network structure (i.e., 0.15 million parameters), DD-Net can reach a super fast speed, as 3,500 FPS on one GPU, or, 2,000 FPS on one CPU. By employing robust features, DD-Net achieves the state-of-the-art performance on our experimental datasets: SHREC (i.e., hand actions) and JHMDB (i.e., body actions). Our code will be released with this paper later.

研究动机与目标

解决现有基于骨架的动作识别模型计算成本高、模型尺寸大的问题。
在不牺牲识别准确率的前提下提升模型效率，尤其适用于实时与边缘计算场景。
设计一种对位置与视角不变的统一特征表示，同时捕捉全局运动动态。
构建轻量级网络架构，支持在CPU与GPU上实现快速推理。
在包含手势与身体动作等多样化动作类型、具有不同运动尺度与轨迹依赖关系的数据集上实现良好泛化能力。

提出的方法

提出一种关节组距离（JCD）特征，通过计算关节组之间的成对欧氏距离，仅使用下三角矩阵以减少冗余，并确保对位置与视角的不变性。
提出一种双尺度全局运动特征，用于捕捉不同时间尺度下的运动信息，增强对运动尺度变化的鲁棒性。
采用可调节卷积核数量的1D CNN主干网络，以控制模型大小与推理速度，支持在资源受限设备上的部署。
引入嵌入机制以自动学习关节相关性，避免依赖预定义的关节索引。
设计网络结构以支持并行计算，避免使用RNN，优先采用1D卷积以实现高速推理。
在包含2D与3D骨架的SHREC（手势动作）与JHMDB（身体动作）数据集上进行模型训练与评估。

实验结果

研究问题

RQ1基于骨架的动作识别模型是否能在保持极低参数量与高推理速度的同时，实现最先进（SOTA）的准确率？
RQ2一种对关节位置与视角不变的特征（JCD）在缺乏全局运动上下文的情况下，是否能有效捕捉局部骨架关系？
RQ3双尺度全局运动特征在多样化动作类型中，对运动尺度变化的鲁棒性提升程度如何？
RQ4轻量级1D CNN架构是否能在速度与准确率两方面超越RNN及2D/3D CNN模型？
RQ5所提出的模型是否能在具有不同动作特性的数据集上实现良好泛化，例如轨迹依赖型与轨迹独立型动作？

主要发现

在SHREC数据集（14种手势动作）上，DD-Net仅使用182万个参数即达到94.6%的准确率，优于以往方法在准确率与效率方面的表现。
在JHMDB数据集上，DD-Net使用182万个参数达到77.2%的准确率，且在GPU上实现2,200 FPS的推理速度，展现出在身体动作识别任务中的强劲性能。
仅使用15万个参数，DD-Net在SHREC上达到91.8%的准确率，在JHMDB上达到65.7%的准确率，证明了其在几乎不损失准确率的前提下具备极高的效率。
模型在单张GPU（GTX 1080Ti）上达到3,500 FPS，在CPU（Intel E5-2620）上达到2,000 FPS，显著优于基于RNN的模型，得益于可并行化的1D卷积操作。
消融实验表明，双尺度全局运动特征相比单尺度运动特征能进一步提升准确率，尤其在运动速度多变的动作中表现更优。
混淆矩阵显示，DD-Net在所有动作类别中均保持高度鲁棒性，表明其具备强大的泛化能力与极低的误分类率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。