QUICK REVIEW

[論文レビュー] Learnable pooling with Context Gating for video classification

Antoine Miech, Ivan Laptev|arXiv (Cornell University)|Jun 21, 2017

Human Pose and Action Recognition参考文献 48被引用数 242

ひとこと要約

本論文は Context Gating を導入して特徴量と出力の重みを再調整し、学習可能でクラスタリングベースのプーリング手法（NetVLAD、NetFV、BoW、NetRVLAD）を探索し、大規模なビデオ分類に適用、Youtube-8M V2 で最先端の結果を達成します。

ABSTRACT

Current methods for video analysis often extract frame-level features using pre-trained convolutional neural networks (CNNs). Such features are then aggregated over time e.g., by simple temporal averaging or more sophisticated recurrent neural networks such as long short-term memory (LSTM) or gated recurrent units (GRU). In this work we revise existing video representations and study alternative methods for temporal aggregation. We first explore clustering-based aggregation layers and propose a two-stream architecture aggregating audio and visual features. We then introduce a learnable non-linear unit, named Context Gating, aiming to model interdependencies among network activations. Our experimental results show the advantage of both improvements for the task of video classification. In particular, we evaluate our method on the large-scale multi-modal Youtube-8M v2 dataset and outperform all other methods in the Youtube 8M Large-Scale Video Understanding challenge.

研究の動機と目的

単純な平均化や再帰ネットのみを超える、ビデオ分類のより良い時系列集約を動機づける。
活性化間の相互依存性をモデル化し、特徴量とラベルの重要性をキャリブレーションするための Context Gating を提案する。
LSTMs/GRUs の代替として、クラスタリングベースで微分可能なプーリング（NetVLAD、NetFV、BoW、NetRVLAD）を調査する。
音声と映像ストリームを組み合わせるとマルチモーダルなビデオ理解が改善されることを示す。
学習可能なプーリングとゲーティングを用いて Youtube-8M v2 データセットで最先端の性能を実証する。

提案手法

視覚特徴と音声特徴のための2ストリームプーリングアーキテクチャを導入する。
各特徴次元をゲートするための非線形ゲーティング単位 Y = sigma(WX + b) ∘ X を Context Gating として提案する。
プーリング後および分類器の後に Context Gating を適用して出力空間の priors を捉える。
NetVLAD、NetFV、NetRVLAD、NetBoW を時間的集約のための微分可能で学習可能なプーリング手法として適応させる。
同じ 1024 次元表現の下で LSTM/GRU ベースラインおよび単純な平均プーリングと比較する。
最終段で Mixture-of-Experts (MoE) 分類器を用い、そこに Context Gating を適用する。

実験結果

リサーチクエスチョン

RQ1学習可能でクラスタリングベースのプーリング方式は、大規模なビデオ分類において再帰モデルを上回ることができるか？
RQ2Context Gating はマルチモーダルなビデオタスクにおいて特徴レベルの表現と出力空間の priors の双方を改善するか？
RQ3音声視覚の結合戦略は Youtube-8M データにおけるさまざまなプーリング手法とどのように相互作用するか？
RQ4これらのプーリング手法のトレーニングデータ増加に伴う汎化挙動はどうなるか？
RQ5提案手法は大規模なビデオ理解ベンチマークで最先端の結果を達成できるか？

主な発見

学習可能なプーリング手法（BoW、NetVLAD、NetFV、NetRVLAD）は、Youtube-8M v2 における GAP で平均プーリングや再帰モデルを上回る。
Context Gating は、クラスタリングベースのプーリング手法に適用した場合一貫して性能を向上させる。
Gated NetVLAD は検証セットで 83.2% GAP を達成し、Gated NetRVLAD は 83.1% GAP を達成した（表 I）。
遅延結合による二流ストリーム音声視覚 fusion は、クラスタリングベースのプーリング性能を向上させる。
128 クラスターの NetVLAD で Context Gating による 0.8% の GAP 増加を示す（アブレーション）。
多様なモデルをアンサンブルすることで最高性能を得られ、25モデルのフルエンサンブルで 85.0% GAP を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。