[论文解读] View Adaptive Neural Networks for High Performance Skeleton-based Human Action Recognition
该论文提出了一种基于骨架的人行动作识别的视图自适应神经网络(VA-RNN 和 VA-CNN),通过在训练过程中自动学习最优的虚拟观测视角,以减少视角变化的影响。这些模型通过端到端学习视角不变特征,在五个基准数据集上实现了最先进性能,VA-fusion 进一步通过数据增强和随机旋转提升了准确率,同时保持了鲁棒性。
Skeleton-based human action recognition has recently attracted increasing attention thanks to the accessibility and the popularity of 3D skeleton data. One of the key challenges in skeleton-based action recognition lies in the large view variations when capturing data. In order to alleviate the effects of view variations, this paper introduces a novel view adaptation scheme, which automatically determines the virtual observation viewpoints in a learning based data driven manner. We design two view adaptive neural networks, i.e., VA-RNN based on RNN, and VA-CNN based on CNN. For each network, a novel view adaptation module learns and determines the most suitable observation viewpoints, and transforms the skeletons to those viewpoints for the end-to-end recognition with a main classification network. Ablation studies find that the proposed view adaptive models are capable of transforming the skeletons of various viewpoints to much more consistent virtual viewpoints which largely eliminates the viewpoint influence. In addition, we design a two-stream scheme (referred to as VA-fusion) that fuses the scores of the two networks to provide the fused prediction. Extensive experimental evaluations on five challenging benchmarks demonstrate that the effectiveness of the proposed view-adaptive networks and superior performance over state-of-the-art approaches. The source code is available at https://github.com/microsoft/View-Adaptive-Neural-Networks-for-Skeleton-based-Human-Action-Recognition.
研究动机与目标
- 为解决基于骨架的人行动作识别中因视角变化过大而导致的性能下降问题。
- 消除对固定人工定义的预处理方法(如身体居中或平面对齐)以实现视角不变性的依赖。
- 开发可端到端训练的神经网络,自动确定最优虚拟观测视角,以实现一致的特征学习。
- 通过在训练过程中引入随机旋转增强,提升泛化能力和鲁棒性。
- 在多个基准数据集上实现最先进性能,同时模型参数量增加极少。
提出的方法
- 提出两种视图自适应神经网络:基于 LSTM-RNN 的 VA-RNN 和基于 3D 卷积网络的 VA-CNN,用于时空特征学习。
- 引入一种新颖的视图自适应模块,在推理过程中为每个骨架序列学习并应用最优虚拟视角。
- 视图自适应模块将输入骨架转换为一致的虚拟视角,以减少视角间差异,从而支持更优的动作特定特征学习。
- 采用双流融合策略(VA-fusion),结合 VA-RNN 和 VA-CNN 的预测结果以提升准确率。
- 在训练过程中对骨架序列应用随机旋转增强,以提升鲁棒性并减少过拟合。
- 采用端到端训练,配备主分类头,其中视图自适应模块与主网络联合优化,以最大化识别准确率。
实验结果
研究问题
- RQ1可学习的、数据驱动的视角自适应方法是否能在基于骨架的人行动作识别中超越固定预处理方法?
- RQ2端到端学习的虚拟视角在多大程度上能减轻视角变化对动作识别准确率的负面影响?
- RQ3所提出的视角自适应机制在具有不同视角分布的多样化数据集上表现如何?
- RQ4将视角自适应机制与 RNN 和 CNN 架构结合,是否能在不同模型复杂度下均带来一致的性能提升?
- RQ5随机旋转增强是否能在不增加模型大小的前提下进一步提升视图自适应模型的鲁棒性?
主要发现
- 所提出的 VA-CNN(aug.) 模型在 NTU-CV 基准上达到 94.3% 的准确率,比基线 S-trans+CNN(aug.) 提高 0.8%。
- 在 UWA3D 数据集上,VA-CNN(aug.) 达到 79.3% 的准确率,比使用相同主干网络的基线 S-trans+CNN(aug.) 提高 11.5%。
- VA-RNN(aug.) 模型在 NTU-CV 上达到 88.7% 的准确率,仅使用 0.47M 参数,展现出在小型模型上的强大性能。
- 双流 VA-fusion(aug.) 模型在 NTU-CV 上达到 95.7% 的准确率,比最佳单流基线高出 2.7%。
- 视图自适应模块在大模型(如 ResNet50)上带来的性能提升远大于小模型,表明其具备良好的可扩展性。
- VA-RNN(aug.) 模型处理序列为每秒 7.9 个,而 VA-CNN(aug.) 每秒处理 83.3 个,显示出速度与准确率之间的权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。