[论文解读] Dynamic GCN: Context-enriched Topology Learning for Skeleton-based Action Recognition
本文提出动态GCN,一种新型图卷积网络,通过轻量级上下文编码网络(CeN)学习动态、上下文增强的骨架拓扑结构。CeN捕获所有关节约束的全局依赖关系,生成有向、样本特定的图结构,在提升动作识别准确率的同时,相比先前方法将FLOPs降低2–4倍,在NTU-RGB+D、NTU-RGB+D 120和Skeleton-Kinetics数据集上达到最先进性能。
Graph Convolutional Networks (GCNs) have attracted increasing interests for the task of skeleton-based action recognition. The key lies in the design of the graph structure, which encodes skeleton topology information. In this paper, we propose Dynamic GCN, in which a novel convolutional neural network named Contextencoding Network (CeN) is introduced to learn skeleton topology automatically. In particular, when learning the dependency between two joints, contextual features from the rest joints are incorporated in a global manner. CeN is extremely lightweight yet effective, and can be embedded into a graph convolutional layer. By stacking multiple CeN-enabled graph convolutional layers, we build Dynamic GCN. Notably, as a merit of CeN, dynamic graph topologies are constructed for different input samples as well as graph convolutional layers of various depths. Besides, three alternative context modeling architectures are well explored, which may serve as a guideline for future research on graph topology learning. CeN brings only ~7% extra FLOPs for the baseline model, and Dynamic GCN achieves better performance with $2 imes$~$4 imes$ fewer FLOPs than existing methods. By further combining static physical body connections and motion modalities, we achieve state-of-the-art performance on three large-scale benchmarks, namely NTU-RGB+D, NTU-RGB+D 120 and Skeleton-Kinetics.
研究动机与目标
- 解决现有图卷积网络(GCN)在基于骨架的动作识别中固定、静态图拓扑结构的局限性。
- 通过整合所有关节约束的全局上下文特征,而非仅依赖局部成对依赖关系,改进拓扑结构学习。
- 开发一种轻量级、端到端可训练的模块,生成有向、样本特定的图结构,以更好地建模骨骼动态特性。
- 在保持或提升识别准确率的同时,降低计算成本,相比现有方法更具效率。
- 为依赖手工设计或非局部基于相似性度量的先前方法,提供一种灵活、数据驱动的替代方案。
提出的方法
- 引入上下文编码网络(CeN),一种轻量级CNN模块,利用所有其他关节的全局上下文信息计算关节约束关系。
- CeN通过聚合上下文特征,生成非对称(有向)邻接矩阵,实现动态、样本特定的图拓扑结构。
- CeN模块嵌入每个图卷积层中,使网络在多层深度上实现动态拓扑学习。
- 该框架结合静态物理身体连接与动态学习的拓扑结构,以增强特征表示能力。
- 该方法端到端可训练,可无缝集成到GCN基模型中,计算开销极低(额外约7% FLOPs)。
- 探索了三种替代的上下文建模架构,以指导未来在拓扑学习方面的研究。
实验结果
研究问题
- RQ1来自所有关节的全局上下文特征是否能提升动作识别中学习到的骨架图拓扑质量?
- RQ2基于数据驱动、上下文增强的拓扑学习方法是否优于忽略全局上下文的非局部方法?
- RQ3轻量级可学习模块能否生成适应个体样本和网络层的动态有向图?
- RQ4将学习到的拓扑结构与静态物理连接相结合,是否能带来更好的性能与效率?
- RQ5该方法是否能在显著降低FLOPs的前提下,实现最先进性能,相比现有方法?
主要发现
- 在NTU-RGB+D数据集的C-Subject设置下,Dynamic GCN达到91.5%的top-1准确率,在C-View设置下达到96.0%,优于先前方法。
- 在NTU-RGB+D 120数据集上,Dynamic GCN在C-Subject设置下达到87.3%的top-1准确率,在C-Setup设置下达到88.6%,显著超越基线模型和MS-G3D Net。
- 在Skeleton-Kinetics数据集上,Dynamic GCN达到37.9%的top-1准确率和61.3%的top-5准确率,创下新SOTA纪录。
- 模型仅比基线增加约7%的FLOPs,同时相比现有方法将FLOPs降低2–4倍。
- 可视化结果表明,学习到的拓扑结构捕捉到了静态图所遗漏的非物理但具有信息量的关节约束关系。
- 消融实验验证,CeN的全局上下文建模与有向图学习显著优于非局部和静态GCN基线模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。