QUICK REVIEW

[论文解读] PKU-MMD: A Large Scale Benchmark for Continuous Multi-Modal Human Action Understanding

Chunhui Liu, Yueyu Hu|arXiv (Cornell University)|Mar 22, 2017

Human Pose and Action Recognition参考文献 46被引用 148

一句话总结

PKU-MMD 引入一个大规模、连续、多模态的3D动作数据集（RGB、深度、红外、骨架），包含1076个长视频、51个动作类别、66名受试者和3个摄像视角，以及用于动作检测的新2D-AP评估协议。

ABSTRACT

Despite the fact that many 3D human activity benchmarks being proposed, most existing action datasets focus on the action recognition tasks for the segmented videos. There is a lack of standard large-scale benchmarks, especially for current popular data-hungry deep learning based methods. In this paper, we introduce a new large scale benchmark (PKU-MMD) for continuous multi-modality 3D human action understanding and cover a wide range of complex human activities with well annotated information. PKU-MMD contains 1076 long video sequences in 51 action categories, performed by 66 subjects in three camera views. It contains almost 20,000 action instances and 5.4 million frames in total. Our dataset also provides multi-modality data sources, including RGB, depth, Infrared Radiation and Skeleton. With different modalities, we conduct extensive experiments on our dataset in terms of two scenarios and evaluate different methods by various metrics, including a new proposed evaluation protocol 2D-AP. We believe this large-scale dataset will benefit future researches on action detection for the community.

研究动机与目标

解决对大规模、连续动作数据集的需求，以便为动作检测的深度学习方法提供充足的数据。
提供来自3个摄像视角的多模态数据（RGB、深度、红外、骨架），以研究各模态之间的互补信息。
使在未裁剪视频中的动作检测能够进行时间定位和动作分类的评估。
引入一种新的评估协议（2D-AP），在精确度-召回关系中同时考虑重叠和检测置信度。

提出的方法

使用 Kinect v2 收集长时间、未裁剪的多视角序列，以获取 RGB、深度、红外和骨架数据。
在1076个视频中，对51个动作类别中的20个动作实例的时间边界进行标注（日常与互动动作）。
提出多模态表示法（Raw Skeleton、Convolution Skeleton、Deep RGB、Deep Optical Flow），并在跨视角和跨主体设置下进行评估。
探讨时间检测策略（滑动窗口 BLSTM/SVM、STA-LSTM、JCRRNN）并融合模态以评估检测性能。
采用带志愿者标注与跨视图一致性检查的交叉验证标注工作流，以确保标签质量。

实验结果

研究问题

RQ1PKU-MMD 是否能在多模态与多视角下支持鲁棒的连续动作检测？
RQ2不同模态组合（RGB、深度、IR、骨架）如何影响动作检测与定位性能？
RQ3各种时间检测架构（BLSTM、JCRRNN、STA-LSTM）在长未裁剪视频上的有效性如何？
RQ4提出的2D-AP评估协议如何在不同重叠阈值和置信度下捕捉精确度-召回？

主要发现

PKU-MMD 包含 1076 长视频、51 动作类别、20,000+ 动作实例，以及在3个视角和66名受试者下的 5.4 million frames。
多模态数据（RGB、深度、红外、骨架）在融合时可提高检测性能，相较于单一模态。
联合分类-回归 RNN 和 BLSTM 基于的方法在跨视图和跨主体设置下的检测指标上优于 SVM 基线。
提出的 2D-AP 协议提供了一个统一的评估，既考虑与地面真值的重叠，又考虑检测置信度。
基线实验表明，在大规模3D数据上的动作检测仍然具有挑战性，强调方法学进步的空间。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。