[论文解读] Learnable pooling with Context Gating for video classification
本文介绍 Context Gating 以重新加权特征和输出,并探索可学习的、基于聚类的池化方法(NetVLAD、NetFV、BoW、NetRVLAD)用于可扩展的视频分类,在 Youtube-8M V2 上实现了最前沿的结果。
Current methods for video analysis often extract frame-level features using pre-trained convolutional neural networks (CNNs). Such features are then aggregated over time e.g., by simple temporal averaging or more sophisticated recurrent neural networks such as long short-term memory (LSTM) or gated recurrent units (GRU). In this work we revise existing video representations and study alternative methods for temporal aggregation. We first explore clustering-based aggregation layers and propose a two-stream architecture aggregating audio and visual features. We then introduce a learnable non-linear unit, named Context Gating, aiming to model interdependencies among network activations. Our experimental results show the advantage of both improvements for the task of video classification. In particular, we evaluate our method on the large-scale multi-modal Youtube-8M v2 dataset and outperform all other methods in the Youtube 8M Large-Scale Video Understanding challenge.
研究动机与目标
- 推动对视频分类的更好时序聚合,超越简单平均和循环网络。
- 提出 Context Gating 以对激活之间的相互依赖进行建模并校准特征与标签的重要性。
- 研究聚类化、可微分的池化(NetVLAD、NetFV、BoW、NetRVLAD)作为 LSTMs/GRUs 的替代方案。
- Show that combining audio and visual streams improves multi-modal video understanding.
- Demonstrate state-of-the-art performance on the Youtube-8M v2 dataset using learnable pooling and gating.
提出的方法
- 为视觉和音频特征引入双流池化架构。
- 提出 Context Gating,一种非线性门控单元 Y = sigma(WX + b) ∘ X,用于门控每个特征维度。
- 在池化后和分类器后应用 Context Gating 以捕捉输出空间的先验。
- 将 NetVLAD、NetFV、NetRVLAD 和 NetBoW 改造成可微分、可学习的用于时序聚合的池化方法。
- 在相同的 1024 维表示下,与 LSTM/GRU 基线和简单的平均池化进行对比。
- 在最终阶段使用混合专家(MoE)分类器,随后再进行 Context Gating。
实验结果
研究问题
- RQ1可学习的、基于聚类的池化方案是否在大规模视频分类中优于循环模型?
- RQ2Context Gating 是否同时改善特征层表示和输出空间先验,在多模态视频任务中?
- RQ3音视频融合策略如何与不同的池化方法在 Youtube-8M 数据上相互作用?
- RQ4随着训练数据增加,这些池化方法的泛化行为如何?
- RQ5提出的方法是否能够在一个大规模视频理解基准上达到最先进的结果?
主要发现
- 可学习的池化方法(BoW、NetVLAD、NetFV、NetRVLAD)在 Youtube-8M v2 的 GAP 上超越了平均池化和循环模型。
- 在聚类基池化方法上应用 Context Gating 时,性能持续提升。
- Gated NetVLAD 在验证集上达到 83.2% GAP,Gated NetRVLAD 在验证集上达到 83.1% GAP(见表 I)。
- 两流音视频融合并行拼接在后期联合后,提升了聚类基化池化的性能。
- Context Gating 在 128 聚类的 NetVLAD 上提供了显著的 0.8% GAP 增益(消融)。
- 对多样化模型进行集成可达到最佳性能,在其设置中的完整 25 模型集成达到 85.0% GAP。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。