[论文解读] Action Machine: Rethinking Action Recognition in Trimmed Videos
Action Machine 提出了一种以人物为中心的剪裁视频动作识别框架,通过联合训练基于RGB的动作识别、人体姿态估计和基于姿态的动作识别,提升了性能。通过使用人物边界框裁剪视频并融合RGB流与姿态流的预测结果,其在NTU RGB-D跨视角设置下实现了97.2%的Top-1准确率,跨主体设置下达到94.3%,且推理速度极快(每帧约55ms)。
Existing methods in video action recognition mostly do not distinguish human body from the environment and easily overfit the scenes and objects. In this work, we present a conceptually simple, general and high-performance framework for action recognition in trimmed videos, aiming at person-centric modeling. The method, called Action Machine, takes as inputs the videos cropped by person bounding boxes. It extends the Inflated 3D ConvNet (I3D) by adding a branch for human pose estimation and a 2D CNN for pose-based action recognition, being fast to train and test. Action Machine can benefit from the multi-task training of action recognition and pose estimation, the fusion of predictions from RGB images and poses. On NTU RGB-D, Action Machine achieves the state-of-the-art performance with top-1 accuracies of 97.2% and 94.3% on cross-view and cross-subject respectively. Action Machine also achieves competitive performance on another three smaller action recognition datasets: Northwestern UCLA Multiview Action3D, MSR Daily Activity3D and UTD-MHAD. Code will be made available.
研究动机与目标
- 通过聚焦于人体运动而非场景和物体线索,解决动作识别模型对场景和物体线索过拟合的问题。
- 减少对现有动作识别方法中环境上下文和物体级特征的依赖,这些特征可能误导模型。
- 通过在多任务学习框架中显式建模人体运动,提升模型的泛化能力和鲁棒性。
- 开发一种快速、可泛化且高性能的框架,整合人物裁剪、动作识别与姿态估计的联合训练,以及预测结果融合。
提出的方法
- 使用人物边界框裁剪输入视频,以隔离以人物为中心的内容并减少背景干扰。
- 在膨胀3D卷积网络(I3D)基础上,增加一个并行的转置卷积头,用于帧级人体姿态估计。
- 引入一个2D CNN分支,对估计的姿态序列进行基于姿态的动作识别。
- 利用共享的I3D特征,对基于RGB的动作识别、姿态估计和基于姿态的动作识别进行多任务训练。
- 在推理阶段通过元素相加的方式融合RGB分类头和姿态分类头的最终预测结果。
- 在COCO数据集上预训练姿态估计模型,并在视频动作识别数据集上进行微调,以提升鲁棒性。
实验结果
研究问题
- RQ1联合训练动作识别与姿态估计是否能提升在剪裁视频动作识别任务上的性能?
- RQ2通过边界框裁剪实现的以人物为中心的建模,是否能减少模型对视频数据集中场景和物体伪影的过拟合?
- RQ3融合RGB流与姿态流的预测结果,与单独使用任一模态相比,在动作识别中表现如何?
- RQ4通过姿态估计进行多任务学习,在多大程度上增强了动作识别的特征学习能力?
- RQ5一种简单、通用的框架,结合RGB与姿态流,能否在计算开销极低的情况下实现最先进性能?
主要发现
- 在NTU RGB-D跨视角划分上,Action Machine实现了97.2%的Top-1准确率,创下新SOTA记录。
- 在NTU RGB-D跨主体划分上,其Top-1准确率达到94.3%,优于先前方法。
- 在Northwestern UCLA Multiview Action3D数据集上,使用ResNet-18和联合训练时,模型性能相比基线提升了7.2个百分点。
- 消融实验表明,仅使用人物裁剪即可在不同划分上提升1.6至4.3个百分点的准确率,而与姿态估计联合训练则使性能提升3至7个百分点。
- 使用ResNet-50并结合NTU RGB-D预训练,使xview3划分上的准确率进一步提升至96.5%,证明了更强主干网络与预训练的有益作用。
- 在TitanX GPU上,每8帧剪辑的推理时间约为55ms,表明尽管采用多流推理,该框架仍具有高效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。