Skip to main content
QUICK REVIEW

[論文レビュー] Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification

Xiang Long, Chuang Gan|arXiv (Cornell University)|Nov 27, 2017
Human Pose and Action Recognition参考文献 30被引用数 18
ひとこと要約

本論文は、時間的モデリングに依存せずに局所的動画特徴を統合する、完全にアテンションベースのフレームワーク「Attention Clusters」を提案する。学習可能でシフト操作を用いたアテンションクラスタを用いることで特徴の多様性を向上させ、Kineticsで79.4%のトップ-1および94.0%のトップ-5精度を達成し、最先端の性能を実現した。これは強力なベースラインを上回り、ActivityNet Kinetics Challenge 2017でも優勝を果たした。

ABSTRACT

Recently, substantial research effort has focused on how to apply CNNs or RNNs to better extract temporal patterns from videos, so as to improve the accuracy of video classification. In this paper, however, we show that temporal information, especially longer-term patterns, may not be necessary to achieve competitive results on common video classification datasets. We investigate the potential of a purely attention based local feature integration. Accounting for the characteristics of such features in video classification, we propose a local feature integration framework based on attention clusters, and introduce a shifting operation to capture more diverse signals. We carefully analyze and compare the effect of different attention mechanisms, cluster sizes, and the use of the shifting operation, and also investigate the combination of attention clusters for multimodal integration. We demonstrate the effectiveness of our framework on three real-world video classification datasets. Our model achieves competitive results across all of these. In particular, on the large-scale Kinetics dataset, our framework obtains an excellent single model accuracy of 79.4% in terms of the top-1 and 94.0% in terms of the top-5 accuracy on the validation set. The attention clusters are the backbone of our winner solution at ActivityNet Kinetics Challenge 2017. Code and models will be released soon.

研究の動機と目的

  • 標準データセットにおける動画分類において、長期的な時間的パターンが必須であるかどうかを調査すること。
  • RNN や CNN を用いた時間的モデリングに依存せずに、局所的動画特徴を統合する完全にアテンションベースの手法を開発すること。
  • 順序のない、類似した、局所的に特定可能な特徴を自然に扱えるアテンション機構を活用して、特徴統合を改善すること。
  • アテンションクラスタリング機構における新しいシフト操作を導入し、表現の多様性を向上させること。
  • 単一モodalおよびマルチモーダル動画分類タスクにおいて、競争力のある性能を達成すること。

提案手法

  • 本手法は、動画フレームから抽出された局所的特徴に対して、学習可能なクエリベクトルを用いてアテンションを計算し、アテンションクラスタを形成する。
  • 各クラスタはスケーリングされたドット積アテンション機構を用いて、局所的特徴の重複した類似した特徴を重み付き平均で集約する。
  • クラスタリングの前に特徴位置を並び替えるシフト操作を導入し、多様性を向上させ、モデルの汎化性能を向上させる。
  • RGB、光センサーフロー、音声特徴に対して別々のアテンションクラスタを適用することで、マルチモーダル統合をサポートする。
  • アテンション機構は順序のない局所的特徴集合に適用され、時間的順序の入れ替えに強く、包括的な動画表現に適している。
  • クロスエントロピー損失を用いてエンドツーエンドで学習され、シフト操作により収束が速くなった。

実験結果

リサーチクエスチョン

  • RQ1長期間の時間的依存関係をモデル化しないで、動画分類の性能を競争力のある水準に保てるか?
  • RQ2完全にアテンションベースの局所的特徴統合機構は、動画分類においてどれほど有効か?
  • RQ3シフト操作はアテンションクラスタの多様性とモデルの精度にどのような影響を与えるか?
  • RQ4異なるクラスタサイズやアテンション機構は、異なるモーダルにどのように影響を与えるか?
  • RQ5同じ局所的特徴を用いた場合、アテンションクラスタは既存の統合手法を上回れるか?

主な発見

  • 提案された Attention Clusters フレームワークは、Kineticsの検証セットで79.4%のトップ-1精度および94.0%のトップ-5精度を達成し、単一モデルとしての最先端性能を樹立した。
  • シフト操作により、特に大きなクラスタサイズの場合、訓練の安定性と精度が顕著に向上し、特徴の多様性が向上した。
  • シフト操作を適用した場合、RGBではTSNベースの特徴に比べ2.0%、フローでは1.5%、音声では2.6%のトップ-1精度が向上した。
  • 最良のマルチモーダル統合では、RGBに64クラスタ、フローと音声に32クラスタを用い、UCF101で94.6%、HMDB51で69.2%の精度を達成した。
  • UCF101、HMDB51、Kineticsの全データセットで、複数の強力なベースラインおよび最先端手法(二重・三重ストリーム統合ネットワーク含む)を上回った。
  • Flash–MNISTへの可視化結果から、アテンションクラスタが冗長な特徴を抑制し、重要な情報を持つ局所的特徴に的確に注目していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。