Skip to main content
QUICK REVIEW

[论文解读] Skeleton based action recognition using translation-scale invariant image mapping and multi-scale deep cnn

Bo Li, Mingyi He|arXiv (Cornell University)|Apr 19, 2017
Human Pose and Action Recognition参考文献 33被引用 51
一句话总结

该论文将3D骨架视频序列映射到平移-尺度不变的颜色图像,并使用多尺度CNN进行分类,在NTU RGB-D、UTD-MHAD、MSRC-12和G3D数据集上实现的SOTA结果。

ABSTRACT

This paper presents an image classification based approach for skeleton-based video action recognition problem. Firstly, A dataset independent translation-scale invariant image mapping method is proposed, which transformes the skeleton videos to colour images, named skeleton-images. Secondly, A multi-scale deep convolutional neural network (CNN) architecture is proposed which could be built and fine-tuned on the powerful pre-trained CNNs, e.g., AlexNet, VGGNet, ResNet etal.. Even though the skeleton-images are very different from natural images, the fine-tune strategy still works well. At last, we prove that our method could also work well on 2D skeleton video data. We achieve the state-of-the-art results on the popular benchmard datasets e.g. NTU RGB+D, UTD-MHAD, MSRC-12, and G3D. Especially on the largest and challenge NTU RGB+D, UTD-MHAD, and MSRC-12 dataset, our method outperforms other methods by a large margion, which proves the efficacy of the proposed method.

研究动机与目标

  • 开发一种数据集无关的平移-尺度不变的图像映射,将3D骨架视频转换为颜色图像(skeleton-images)。
  • 设计一个多尺度CNN架构,可以在预训练的CNN(如 AlexNet、VGGNet、ResNet)上进行微调,用于骨架图像分类。
  • 将该方法扩展到2D骨架数据,并展示具有竞争力的性能。
  • 在大规模基准数据集上评估该方法,并提供对组件和映射的广泛分析。

提出的方法

  • 平移-尺度不变的图像映射将每帧的3D关节点坐标转换为RGB通道,并将关节点按顺序拼接成帧表示,形成一个每个动作序列的彩色图像。
  • 在预训练CNN之上构建一个多尺度CNN架构,在不同输入尺度共享权重,并采用全局池化来产生固定大小的特征。
  • 对所有尺度的输出及其平均值应用Softmax损失来训练网络。
  • 数据增强包括3D坐标旋转、高斯噪声和视频裁剪,以增强鲁棒性。
  • 训练使用带动量的随机梯度下降,从預训练权重(AlexNet/VGG/ResNet)开始,采用学习率调度和Caffe实现。

实验结果

研究问题

  • RQ1平移-尺度不变的图像映射是否能为3D骨架视频提供数据集无关的编码,使其对平移和尺度变化具有鲁棒性?
  • RQ2当输入为由骨架序列推导的骨架图像时,多尺度CNN是否能提升动作识别性能?
  • RQ3所提出的方法与3D相比在2D骨架数据上的迁移表现如何,以及在多大程度上依赖预训练的CNN?

主要发现

  • 该方法在NTU RGB-D、UTD-MHAD、MSRC-12和G3D基准测试上实现了最先进的结果。
  • 在NTU RGB-D上,所提方法在3尺度输入下,使用ResNet152达到85.02%跨主体和92.3%跨视角准确率。
  • 在UTD-MHAD上,该方法达到96.27%准确率,超过若干基线。
  • 在MSRC-12上,该方法达到99.41%准确率,超过竞争方法。
  • 在G3D上,该方法达到93.9%准确率,与领先模型相比具有竞争力。
  • 比较结果显示平移-尺度不变映射和数据增强对性能提升有显著贡献,而多尺度CNN在各数据集上都能稳定提升结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。