QUICK REVIEW

[论文解读] Skeleton based action recognition using translation-scale invariant image mapping and multi-scale deep cnn

Bo Li, Mingyi He|arXiv (Cornell University)|Apr 19, 2017

Human Pose and Action Recognition参考文献 33被引用 51

一句话总结

该论文将3D骨架视频序列映射到平移-尺度不变的颜色图像，并使用多尺度CNN进行分类，在NTU RGB-D、UTD-MHAD、MSRC-12和G3D数据集上实现的SOTA结果。

ABSTRACT

This paper presents an image classification based approach for skeleton-based video action recognition problem. Firstly, A dataset independent translation-scale invariant image mapping method is proposed, which transformes the skeleton videos to colour images, named skeleton-images. Secondly, A multi-scale deep convolutional neural network (CNN) architecture is proposed which could be built and fine-tuned on the powerful pre-trained CNNs, e.g., AlexNet, VGGNet, ResNet etal.. Even though the skeleton-images are very different from natural images, the fine-tune strategy still works well. At last, we prove that our method could also work well on 2D skeleton video data. We achieve the state-of-the-art results on the popular benchmard datasets e.g. NTU RGB+D, UTD-MHAD, MSRC-12, and G3D. Especially on the largest and challenge NTU RGB+D, UTD-MHAD, and MSRC-12 dataset, our method outperforms other methods by a large margion, which proves the efficacy of the proposed method.

研究动机与目标

开发一种数据集无关的平移-尺度不变的图像映射，将3D骨架视频转换为颜色图像（skeleton-images）。
设计一个多尺度CNN架构，可以在预训练的CNN（如 AlexNet、VGGNet、ResNet）上进行微调，用于骨架图像分类。
将该方法扩展到2D骨架数据，并展示具有竞争力的性能。
在大规模基准数据集上评估该方法，并提供对组件和映射的广泛分析。

提出的方法

平移-尺度不变的图像映射将每帧的3D关节点坐标转换为RGB通道，并将关节点按顺序拼接成帧表示，形成一个每个动作序列的彩色图像。
在预训练CNN之上构建一个多尺度CNN架构，在不同输入尺度共享权重，并采用全局池化来产生固定大小的特征。
对所有尺度的输出及其平均值应用Softmax损失来训练网络。
数据增强包括3D坐标旋转、高斯噪声和视频裁剪，以增强鲁棒性。
训练使用带动量的随机梯度下降，从預训练权重（AlexNet/VGG/ResNet）开始，采用学习率调度和Caffe实现。

实验结果

研究问题

RQ1平移-尺度不变的图像映射是否能为3D骨架视频提供数据集无关的编码，使其对平移和尺度变化具有鲁棒性？
RQ2当输入为由骨架序列推导的骨架图像时，多尺度CNN是否能提升动作识别性能？
RQ3所提出的方法与3D相比在2D骨架数据上的迁移表现如何，以及在多大程度上依赖预训练的CNN？

主要发现

该方法在NTU RGB-D、UTD-MHAD、MSRC-12和G3D基准测试上实现了最先进的结果。
在NTU RGB-D上，所提方法在3尺度输入下，使用ResNet152达到85.02%跨主体和92.3%跨视角准确率。
在UTD-MHAD上，该方法达到96.27%准确率，超过若干基线。
在MSRC-12上，该方法达到99.41%准确率，超过竞争方法。
在G3D上，该方法达到93.9%准确率，与领先模型相比具有竞争力。
比较结果显示平移-尺度不变映射和数据增强对性能提升有显著贡献，而多尺度CNN在各数据集上都能稳定提升结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。