[论文解读] Co-occurrence Feature Learning from Skeleton Data for Action Recognition and Detection with Hierarchical Aggregation
作者提出一个端到端的分层共现特征学习框架(HCN),通过 CNN 的全局联合共现聚合和两流骨架运动输入,在骨架数据上提升动作识别与检测,并在 NTU RGB+D、SBU Kinect Interaction、PKU-MMD 数据集上达到最先进的结果。
Skeleton-based human action recognition has recently drawn increasing attentions with the availability of large-scale skeleton datasets. The most crucial factors for this task lie in two aspects: the intra-frame representation for joint co-occurrences and the inter-frame representation for skeletons' temporal evolutions. In this paper we propose an end-to-end convolutional co-occurrence feature learning framework. The co-occurrence features are learned with a hierarchical methodology, in which different levels of contextual information are aggregated gradually. Firstly point-level information of each joint is encoded independently. Then they are assembled into semantic representation in both spatial and temporal domains. Specifically, we introduce a global spatial aggregation scheme, which is able to learn superior joint co-occurrence features over local aggregation. Besides, raw skeleton coordinates as well as their temporal difference are integrated with a two-stream paradigm. Experiments show that our approach consistently outperforms other state-of-the-arts on action recognition and detection benchmarks like NTU RGB+D, SBU Kinect Interaction and PKU-MMD.
研究动机与目标
- 通过利用关节共现模式来推动基于骨架的鲁棒动作识别与检测。
- 开发一个端到端的 CNN 框架,从骨架序列中学习全局关节共现。
- 通过两流设计引入显式的骨架运动,以捕捉时序动态。
- 通过有效的特征融合策略确保对多人场景的可扩展性。
- 在 NTU RGB+D、SBU Kinect Interaction 和 PKU-MMD 数据集上展示最先进的性能。
提出的方法
- 将骨架序列表示为一个张量 frames x joints x 3(坐标)。
- 使用 1x1 和 nx1 卷积对点级关节特征进行编码,以学习每个关节的表示。
- 转置以将关节维度交换到通道中,从而实现跨关节的全局共现学习。
- 使用分层 CNN 将特征从点级聚合到全局共现特征。
- 采用两流范式,通过输入原始坐标和时间差(骨架运动),并通过通道维拼接来融合它们的特征。
- 通过加入多人与特征融合策略(早期填充、后期融合,使用最大值/均值/拼接)扩展模型以实现可扩展性。
- 应用一个时间提议与动作分类子网络用于动作检测,采用类似边界框回归的回归式窗口策略。
实验结果
研究问题
- RQ1通过 CNN 学习的全局共现特征能否在基于骨架的动作识别中超过局部关节共现方法?
- RQ2两流表示(坐标与运动)是否能改善动作识别与检测性能?
- RQ3关节信息的分层聚合如何影响跨数据集和受试者的识别准确率?
- RQ4哪种融合策略最适合处理多人动作中的可变人数?
- RQ5在 NTU RGB+D、SBU Kinect Interaction 以及 PKU-MMD 上,该方法在识别与检测任务中的表现如何?
主要发现
- 分层共现网络(HCN)在动作识别和检测基准上始终优于最先进方法。
- 将关节视为输入通道进行全局共现学习,其结果优于局部共现方法。
- 坐标与骨架运动的两流融合在各数据集上提升了性能。
- 采用元素级最大值的后期融合是多人人输入中最有效的策略,对不同人数有较好的一般化。
- 在 NTU RGB+D 上,HCN 达到 86.5%(CS)和 91.1%(CV)准确率,优于先前方法。
- 在 SBU Kinect Interaction 上,HCN 达到 98.6% 的准确率,显著超过先前工作。
- 在 PKU-MMD 上,HCN 获得 92.6% mAP(CS)和 94.2% mAP(CV)用于检测,超过了若干先前方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。