[論文レビュー] Attentional Pooling for Action Recognition
注意機構を導入し、画像固有の注意マップを学習して空間特徴をウェイト付け、画像と動画でのアクション認識を最小限の追加コストで改善します。MPII、HMDB51、HICOで最先端または競合的な結果を達成し、注意と2次元プーリングの関係を分析します。
We introduce a simple yet surprisingly powerful model to incorporate attention in action recognition and human object interaction tasks. Our proposed attention module can be trained with or without extra supervision, and gives a sizable boost in accuracy while keeping the network size and computational cost nearly the same. It leads to significant improvements over state of the art base architecture on three standard action recognition benchmarks across still images and videos, and establishes new state of the art on MPII dataset with 12.5% relative improvement. We also perform an extensive analysis of our attention module both empirically and analytically. In terms of the latter, we introduce a novel derivation of bottom-up and top-down attention as low-rank approximations of bilinear pooling methods (typically used for fine-grained classification). From this perspective, our attention formulation suggests a novel characterization of action recognition as a fine-grained recognition problem.
研究の動機と目的
- アクション認識のために追加の監視なし/少なくとも監視で訓練できる注意メカニズムを動機づける。
- 標準CNNへほとんど計算オーバーヘッドを増やさずに注意を組み込む。
- アテンショナル・プーリングが低ランクの双線形プーリングの解釈と整合し、ベンチマークを改善することを示す。
- 特に非アイコニックなフレームを含むビデオデータで、ポーズの監視が注意に与える影響を分析する。
提案手法
- アテンショナル・プーリングを2次のプーリングのランク1近似として導出し、 bottom-upの顕在性マップ Xb と top-down のクラス固有マップ Xa を可能にする。
- 注意モジュールをCNNの標準プーリングの代替として実装し、h = Xb および score = a^T(X^T h) によって注意重み付き特徴を生成する。
- クラス固有の(top-down) 注意を、Wk または a_k の重みによって可能にしつつ、顕在性のためのクラス不変な bottom-up 成分 b を共有する。
- テスト時にポーズを必要とせずに注意を導くポーズ予測ヘッドを追加することで、ポーズ規則化注意へモデルを拡張する。
- attention の利得を最大化するために、基本ネットワーク(ResNet-101 対 BN-Inception)や入力解像度などのアーキテクチャ選択を検討する。
実験結果
リサーチクエスチョン
- RQ1監視を最小限に抑えて学習した注意メカニズムは、画像および動画でのアクション認識を改善できるか。
- RQ2 bottom-up の顕在性と top-down のクラス固有注意は、アクション認識においてどのように相互作用するか。
- RQ3ポーズに導かれた正則化が、特に非アイコニックなビデオフレームで注意とアクション認識の性能に与える影響はどの程度か。
- RQ4 attentional pooling は2次・双線形プーリングとどのように関連するか、ランク1近似で多くの利点を捉えられるか。
- RQ5注意は異なるベースアーキテクチャやデータセット(MPII、HICO、HMDB51)で一貫した利得をもたらすか。
主な発見
- 注意付きプーリング・モジュールは、ベースラインに対して計算量の大幅な増加なしに有意な精度向上をもたらす。
- MPII では、ポーズ正則化バリアントが最良の性能を達成し、ベースラインおよび従来手法に対して顕著な利得を得る。
- HICO では、全画像ベースの手法や多くの境界ボックスベースの手法を上回り、HOI分類の性能が高いことを示す。
- HMDB51 では、ポーズ正則化注意はRGBのみの単一フレーム性能を大幅に改善し、RGBのみ手法の最先端を達成する。
- Xa と Xb によるランク1(低ランク)注意は、双線形/2次元注意機構と同等で、注意と2次プーリングの概念を結びつける。
- 従来の方法は、ResNet-101 とより大きな空間解像度で最も良い成績を出す;Inceptionベースのバックボーンは受容野の特性により利得が小さい。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。