[论文解读] NTU RGB+D: A Large Scale Dataset for 3D Human Activity Analysis
介绍 NTU RGB+D,一个包含 56,880 个样本、60 个类别的大规模 RGB+D 行为识别数据集,并提出一个在跨主体和跨视图评估中优于基线的部分感知 LSTM(P-LSTM)。
Recent approaches in depth-based human activity analysis achieved outstanding performance and proved the effectiveness of 3D representation for classification of action classes. Currently available depth-based and RGB+D-based action recognition benchmarks have a number of limitations, including the lack of training samples, distinct class labels, camera views and variety of subjects. In this paper we introduce a large-scale dataset for RGB+D human action recognition with more than 56 thousand video samples and 4 million frames, collected from 40 distinct subjects. Our dataset contains 60 different action classes including daily, mutual, and health-related actions. In addition, we propose a new recurrent neural network structure to model the long-term temporal correlation of the features for each body part, and utilize them for better action classification. Experimental results show the advantages of applying deep learning methods over state-of-the-art hand-crafted features on the suggested cross-subject and cross-view evaluation criteria for our dataset. The introduction of this large scale dataset will enable the community to apply, develop and adapt various data-hungry learning techniques for the task of depth-based and RGB+D-based human activity analysis.
研究动机与目标
- 需要一个大规模、多样化的 RGB+D 行为识别基准,以支持对数据需求较高的学习方法。
- 提供一个注释丰富的数据集,具有多样的主体、视角和环境,以实现鲁棒的跨主体和跨视图评估。
- 提出一个利用身体部位结构的部分感知 LSTM,以提升序列动作识别。
- 评估在新数据集上传统手工特征、骨架为基的方法,以及循环神经网络。
- 展示数据驱动的学习方法在 NTU RGB+D 基准上优于手工特征。
提出的方法
- 引入 NTU RGB+D 数据模态:深度图、3D 关节、RGB 帧,以及用 Kinect v2 捕获的红外序列。
- 从 40 个主体、80 个摄像视角和 60 个动作类别中收集 56,880 个 RGB+D 视频样本,覆盖日常、健康相关和互动作。
- 定义跨主体和跨视图评估标准,并提供用于学习的预处理骨架表示。
- 通过将身体分成五个部分并分配各部份的记忆单元,同时共享输出门,开发 Part-Aware LSTM (P-LSTM)。
- 给出 P-LSTM 方程:每部分门 i^p、f^p、g^p 及 c_t^p 的记忆;共享输出门 o;拼接各部分记忆以得到 h_t(论文中的方程 9–12)。
- 将 P-LSTM 与深度映射基线、基于骨架的方法,以及标准 RNN/LSTM 架构进行比较。
实验结果
研究问题
- RQ1大规模 RGB+D 行为数据集是否能支持数据驱动学习方法并提升跨主体和跨视图的泛化?
- RQ2仅靠骨架和深度特征是否足够,还是深序列模型(RNN/LSTM)在 NTU RGB+D 上能够超越手工特征?
- RQ3通过引入部分感知 LSTM 的身体部位结构是否能够在深度/骨架数据上提升动作识别性能?
- RQ4在 NTU RGB+D 基准上,不同方法的跨主体和跨视图评估有何差异?
- RQ5多层 P-LSTM 相对于单层及其他递归结构的相对性能提升是多少?
主要发现
| 方法 | 跨主体准确率 | 跨视图准确率 |
|---|---|---|
| HOG 2 [24] | 32.24% | 22.27% |
| Super Normal Vector [44] | 31.82% | 13.61% |
| HON4D [25] | 30.56% | 7.26% |
| Lie Group [37] | 50.08% | 52.76% |
| Skeletal Quads [10] | 38.62% | 41.36% |
| FTP Dynamic Skeletons [15] | 60.23% | 65.22% |
| HBRNN-L [9] | 59.07% | 63.97% |
| 1 Layer RNN | 56.02% | 60.24% |
| 2 Layer RNN | 56.29% | 64.09% |
| 1 Layer LSTM | 59.14% | 66.81% |
| 2 Layer LSTM | 60.69% | 67.29% |
| 1 Layer P-LSTM | 62.05% | 69.40% |
| 2 Layer P-LSTM | 62.93% | 70.27% |
- NTU RGB+D 包含 56,880 个样本,60 个动作类别,40 个主体,80 个视角,能够进行广泛的跨主体和跨视图评估。
- Part-Aware LSTM (P-LSTM) 超越所有基线,在跨主体达到 62.93%,跨视图达到 70.27% 的精确度。
- 深度图基线在跨视图上的表现弱于跨主体,因为深度外观随视图变化;而基于骨架的特征在跨视图上泛化更好,但依赖于准确的身体跟踪。
- 堆叠的 LSTM 能提升性能;P-LSTM 通过建模每个部分的动态并将它们组合,提供最佳结果。
- 与手工特征(如 HOG2、HON4D 等)及其他基于骨架的方法相比,P-LSTM 在 NTU RGB+D 基准上具有明显优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。