QUICK REVIEW

[论文解读] Deep Convolutional Neural Networks for Action Recognition Using Depth Map Sequences

Pichao Wang, Wanqing Li|arXiv (Cornell University)|Jan 20, 2015

Human Pose and Action Recognition参考文献 25被引用 36

一句话总结

该论文提出了一种新颖的 HDMM + 3ConvNets 框架，用于基于深度图序列的人体动作识别，通过旋转的3D点云和分层深度运动图提取鲁棒的时空特征。该方法在多个数据集（包括一个大规模合并数据集）上实现了最先进性能，且性能下降极小，展现出对视角和运动速度变化的强泛化能力和鲁棒性。

ABSTRACT

Recently, deep learning approach has achieved promising results in various fields of computer vision. In this paper, a new framework called Hierarchical Depth Motion Maps (HDMM) + 3 Channel Deep Convolutional Neural Networks (3ConvNets) is proposed for human action recognition using depth map sequences. Firstly, we rotate the original depth data in 3D pointclouds to mimic the rotation of cameras, so that our algorithms can handle view variant cases. Secondly, in order to effectively extract the body shape and motion information, we generate weighted depth motion maps (DMM) at several temporal scales, referred to as Hierarchical Depth Motion Maps (HDMM). Then, three channels of ConvNets are trained on the HDMMs from three projected orthogonal planes separately. The proposed algorithms are evaluated on MSRAction3D, MSRAction3DExt, UTKinect-Action and MSRDailyActivity3D datasets respectively. We also combine the last three datasets into a larger one (called Combined Dataset) and test the proposed method on it. The results show that our approach can achieve state-of-the-art results on the individual datasets and without dramatical performance degradation on the Combined Dataset.

研究动机与目标

通过直接对3D点云进行旋转，解决基于深度图的动作识别中视角变化的挑战。
通过生成加权、多尺度的深度运动图（HDMM），捕捉人体形状和运动动态，提升特征提取能力。
通过旋转和时间缩放人工扩大训练数据，提升在小规模和复杂数据集上的泛化能力。
通过在预训练的卷积神经网络上进行微调，在单个和合并数据集上实现最先进性能。
在具有不同动作复杂度、噪声水平和视角的多样化数据集上评估模型的鲁棒性。

提出的方法

该方法首先对3D深度点云进行旋转，以模拟不同相机视角，提升视角不变性。
对于每个旋转视角，将深度帧投影到三个正交平面（X、Y、Z）以捕捉空间结构。
通过在多个时间尺度上计算连续帧与下采样帧之间的绝对差值，构建分层深度运动图（HDMM）。
应用加权因子以优先考虑近期运动能量，突出动作序列中的动态变化。
在三个正交投影的HDMM上分别训练三个独立的三通道卷积神经网络，并进行分类得分的晚期融合。
使用在ImageNet上预训练的模型在深度数据上进行微调，以缓解小数据集上的过拟合，提升性能。

实验结果

研究问题

RQ1基于深度图的深度学习框架是否能在标准动作识别基准上实现最先进性能？
RQ2通过3D点云旋转和时间缩放进行数据增强，在提升模型泛化能力方面有多有效？
RQ3所提出的HDMM表示是否能有效捕捉不同时间尺度下的形状和运动线索？
RQ4当在具有高动作、视角和背景差异的合并数据集上训练时，该方法表现如何？
RQ5预训练微调在小规模基于深度图的动作识别数据集上能在多大程度上提升性能？

主要发现

在MSRAction3D上，该方法达到94.58%的准确率，优于之前的最先进方法（89.83%）。
在MSRAction3DExt上，该方法达到94.05%的准确率，超过先前最佳结果91.15%。
在UTKinect-Action上，该方法达到91.92%的准确率，超过之前的最先进结果93.94%。
在MSRDailyActivity3D上，该方法获得78.12%的准确率，显著优于先前结果60.63%。
在合并数据集上，该方法达到90.92%的准确率，表现出强鲁棒性，与单个数据集性能相比仅出现轻微下降。
混淆矩阵显示，尽管合并数据集的复杂度和方差增加，模型在各数据集上仍保持一致性能，准确率下降极小。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。