QUICK REVIEW

[论文解读] Baidu-UTS Submission to the EPIC-Kitchens Action Recognition Challenge 2019

Xiaohan Wang, Yu Wu|arXiv (Cornell University)|Jun 22, 2019

Human Pose and Action Recognition参考文献 26被引用 19

一句话总结

该论文展示了在EPIC-Kitchens 2019动作识别挑战赛中的获胜解决方案，提出了一种门控特征聚合器（Gated Feature Aggregator, GFA），通过融合3D卷积神经网络（3D CNN）剪辑特征与上下文帧中的目标检测特征，提升了动词和名词的识别性能。通过利用与目标相关的特征并稳定训练过程，该方法在已见测试集上实现了69.80%的top-1准确率，在未见测试集上实现了52.27%的名词识别top-1准确率，达到当前最优性能。

ABSTRACT

In this report, we present the Baidu-UTS submission to the EPIC-Kitchens Action Recognition Challenge in CVPR 2019. This is the winning solution to this challenge. In this task, the goal is to predict verbs, nouns, and actions from the vocabulary for each video segment. The EPIC-Kitchens dataset contains various small objects, intense motion blur, and occlusions. It is challenging to locate and recognize the object that an actor interacts with. To address these problems, we utilize object detection features to guide the training of 3D Convolutional Neural Networks (CNN), which can significantly improve the accuracy of noun prediction. Specifically, we introduce a Gated Feature Aggregator module to learn from the clip feature and the object feature. This module can strengthen the interaction between the two kinds of activations and avoid gradient exploding. Experimental results demonstrate our approach outperforms other methods on both seen and unseen test set.

研究动机与目标

为了提升第一人称视频中的动作识别性能，特别是名词预测，该任务因小目标、运动模糊和遮挡而具有挑战性。
通过引入目标检测特征作为监督信号，解决标准3D CNN在第一人称视频理解中的局限性。
通过新型门控特征聚合器模块，稳定训练过程并增强剪辑级与目标级表征之间的特征交互。
在EPIC-Kitchens数据集的已见和未见测试划分上均实现当前最优性能。

提出的方法

该框架采用双分支结构：一个3D CNN分支处理中心视频剪辑，以提取剪辑级特征；另一分支在剪辑周围的上下文帧上使用预训练的Faster R-CNN检测器，以提取目标特征。
从top-K个边界框（K=10）中提取目标特征，通过RoIAlign在2D特征图上操作，随后进行最大池化，并输入门控特征聚合器（GFA）模块。
GFA模块通过可学习门控机制学习剪辑特征与目标特征的门控融合，实现动态交互，并在训练过程中减少梯度爆炸。
GFA使用归一化和缩放操作（类型A/B）来稳定特征融合过程，提升表征质量。
最终融合的特征用于独立的动词和名词分类，动作预测由动词和名词概率的乘积生成，并根据训练频率进行重加权。
模型采用随机梯度下降（SGD）与动量进行端到端训练，最终提交结果采用在完整训练集上训练的多个模型的集成。

实验结果

研究问题

RQ1目标检测特征在多大程度上能提升第一人称视频动作识别中的名词识别准确率？
RQ2像门控特征聚合器这样的可学习融合模块是否能稳定训练并增强剪辑特征与目标特征之间的特征交互？
RQ3在视频剪辑周围引入上下文帧是否能提升目标检测特征在运动模糊和遮挡情况下的鲁棒性？
RQ4所提出的方法在EPIC-Kitchens数据集的已见和未见测试集上与基线3D CNN和双流模型相比表现如何？
RQ5基于动作先验频率的重加权策略在多大程度上能提升最终动作识别性能？

主要发现

所提方法在已见测试集上实现69.80%的top-1准确率和90.95%的top-5准确率，动词识别性能比基线双流I3D模型高出8.36个百分点。
在未见测试集（s1）上，名词识别达到52.27%的top-1准确率和76.71%的top-5准确率，显著优于基线在验证集上的39.09% top-1准确率。
与基线相比，使用ResNet-50和2048维目标特征时，采用类型A/B操作的门控特征聚合器（GFA）可将top-1名词准确率提升高达7.92个百分点。
基于动作频率的重加权策略在训练/验证划分上将top-1动作准确率提升1.30个百分点，top-5准确率提升1.71个百分点。
最终集成模型在已见（s1）和未见（s2）测试集上均达到SOTA性能，s1上top-1动作准确率为41.37%，s2上为25.06%。
消融实验表明，GFA比简单拼接更有效，且使用上下文帧能增强在运动模糊和遮挡条件下目标特征的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。