[论文解读] Revisiting the Effectiveness of Off-the-shelf Temporal Modeling Approaches for Large-scale Video Classification
本文评估用于大规模视频分类的现成时序建模方法,使用多模态特征,提出四个模型,在 Kinetics 上实现了最先进的结果,特别是在进行集成时。
This paper describes our solution for the video recognition task of ActivityNet Kinetics challenge that ranked the 1st place. Most of existing state-of-the-art video recognition approaches are in favor of an end-to-end pipeline. One exception is the framework of DevNet. The merit of DevNet is that they first use the video data to learn a network (i.e. fine-tuning or training from scratch). Instead of directly using the end-to-end classification scores (e.g. softmax scores), they extract the features from the learned network and then fed them into the off-the-shelf machine learning models to conduct video classification. However, the effectiveness of this line work has long-term been ignored and underestimated. In this submission, we extensively use this strategy. Particularly, we investigate four temporal modeling approaches using the learned features: Multi-group Shifting Attention Network, Temporal Xception Network, Multi-stream sequence Model and Fast-Forward Sequence Model. Experiment results on the challenging Kinetics dataset demonstrate that our proposed temporal modeling approaches can significantly improve existing approaches in the large-scale video recognition tasks. Most remarkably, our best single Multi-group Shifting Attention Network can achieve 77.7% in term of top-1 accuracy and 93.2% in term of top-5 accuracy on the validation set.
研究动机与目标
- 通过在学习特征后应用现成的时序模型来提升大规模视频理解的动机。
- 在 Kinetics 上使用 RGB、Flow 和 Audio 特征评估多种时序建模方法。
- 提出四种新颖的时序建模方法并评估它们的互补收益。
提出的方法
- 在 Temporal Segment Network 框架内,使用 Inception-ResNet-v2 提取 RGB/Flow 的多模态特征,以及基于 VGG16 的音频模型。
- 提出四种现成的时序建模方法:多组分移位注意力网络(Multi-group Shifting Attention Network)、时序 Xception 网络(Temporal Xception Network)、多流序列模型(Multi-stream Sequence Model)以及快速前向序列模型(Fast-Forward Sequence Model)。
- 对时序建模使用深度可分离卷积和基于注意力的移位操作。
- 融合模态特定的注意力/分组输出并输入分类器;与传统时序池化和 LSTM 基线进行比较。
- 在 Kinetics 上使用固定长度/基于片段的测试协议进行评估,并报告 Top-1/Top-5 准确度。
- 展示从组合单独模型得到的集成增益。
实验结果
研究问题
- RQ1将现成的时序建模方法应用于学习的多模态视频特征以进行大规模动作识别时,其有效性如何?
- RQ2所提出的时序模型是否能够匹配或超过在 Kinetics 上的传统序列模型如 LSTM?
- RQ3不同的时序建模方法是否互补,从而带来更好的集成性能?
- RQ4多模态特征(RGB、Flow、Audio)相对于简单分数融合对性能提升的贡献是什么?
主要发现
| 模型 | 模态 | Top-1 准确度 (%) | Top-5 准确度 (%) |
|---|---|---|---|
| Inception-ResNet-v2 | RGB | 73.0 | 90.9 |
| Inception-ResNet-v2 | Flow | 54.5 | 75.9 |
| VGG16 | Audio | 21.6 | 39.4 |
| Late fusion | RGB + Flow + Audio | 74.9 | 91.6 |
| Multi-stream Sequence Model | RGB + Flow + Audio | 77.0 | 93.2 |
| Fast-forward LSTM | RGB + Flow + Audio | 77.1 | 93.2 |
| Temporal Xception Network | RGB + Flow + Audio | 77.2 | 93.4 |
| Shifting Attention Network | RGB + Flow + Audio | 77.7 | 93.2 |
| Ensemble | RGB + Flow + Audio | 81.5 | 95.6 |
- 使用多模态特征的时序建模优于对模态特定分类器的简单分数融合。
- 所提出的移位注意力网络和时序 Xception 网络与传统序列模型(如 LSTM)相比,达到可比或更优的结果。
- 这四种时序模型相互补充,其集成为最佳性能来源。
- 在 Kinetics 的验证中,最佳单模型(Shifting Attention Network)达到 77.7% Top-1 和 93.2% Top-5;集成达到 81.5% Top-1 和 95.6% Top-5。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。