[論文レビュー] Attention is All We Need: Nailing Down Object-centric Attention for Egocentric Activity Recognition
著者らは、クラスアクティベーションマップを空間的注意として用い、オブジェクト領域に焦点を当てるエンドツーエンドのCNN-RNNモデルを提案する。これにより convLSTM の temporal encoding を活用した弱教師付き自撮り視点アクティビティ認識を実現し、複数のベンチマークで最先端の結果を達成している。
In this paper we propose an end-to-end trainable deep neural network model for egocentric activity recognition. Our model is built on the observation that egocentric activities are highly characterized by the objects and their locations in the video. Based on this, we develop a spatial attention mechanism that enables the network to attend to regions containing objects that are correlated with the activity under consideration. We learn highly specialized attention maps for each frame using class-specific activations from a CNN pre-trained for generic image recognition, and use them for spatio-temporal encoding of the video with a convolutional LSTM. Our model is trained in a weakly supervised setting using raw video-level activity-class labels. Nonetheless, on standard egocentric activity benchmarks our model surpasses by up to +6% points recognition accuracy the currently best performing method that leverages hand segmentation and object location strong supervision for training. We visually analyze attention maps generated by the network, revealing that the network successfully identifies the relevant objects present in the video frames which may explain the strong recognition performance. We also discuss an extensive ablation analysis regarding the design choices.
研究の動機と目的
- Fine-grained egocentric activity recognition を、物体の位置と手を活用して動機づける。
- 強い supervision なしで空間的注意マップを学習するエンドツーエンドのアーキテクチャを開発する。
- ConvLSTM を用いて空間構造を保ちながら時空情報をエンコードする。
- アブレーションと可視化を通じて、注意マップが activity に関連する物体とどのように整列するかを示す。
提案手法
- ResNet-34 を ImageNet で事前学習させてフレーム特徴を抽出し、クラスアクティベーションマップ (CAMs) を計算する。
- CAMs を空間確率マップに変換し、それを注意として Hadamard 積 (f_SA(i)=f(i) ⊙ softmax(M_c(i))) によってフレーム特徴を重み付けする。
- ConvLSTM を用いて attended frame features を時系列でエンコードし、空間構造を保つ。
- 2 段階で訓練する:ステージ 1 で分類器と ConvLSTM 層を訓練;ステージ 2 では ResNet の最終層と FC 分類器を追加で微調整して注意を専門化する。
- 時系列ストリームとして積層された光学フロー(warp flow)を取り入れ、空間ストリームと時系列ストリームを平均融合または joint-training 法で融合する(joint-training は相対的に +10% の利得を生む)。
- GTEA 61、GTEA 71、GTEA Gaze+、EGTEA Gaze+ を 25 フレーム/動画、5 フレーム光学フローのスタックで評価し、手のセグメンテーションや視線ベースの supervisio ンアプローチと比較する。
実験結果
リサーチクエスチョン
- RQ1弱い動画レベルのラベルから学習されたオブジェクト中心の空間的注意が、手の注釈なしで自撮り視点アクティビティ認識を改善できるか?
- RQ2ConvLSTM ベースの時空エンコーディングは、学習済みの空間的注意を保持・活用して細かな活動を実現できるか?
- RQ3エンドツーエンドの CAM ベースの注意は、手/物体のローカライズに依存する強い supervision 法と比較して、標準ベンチマークでどの程度優れているか?
主な発見
- 提案手法は four egocentric datasets で最先端の結果を達成し、従来の最良手法を標準ベンチマークの精度で最大 6 ポイント上回る。
- アブレーションにより、空間的注意を追加するとベースライン(注意なし)に比べ精度が約 12% 増加することが示される。
- 空間ストリームと時系列ストリームを jointly training することで、単純な平均融合より約 10% の改善を提供。
- 学習済み注意マップは、手のセグメンテーションや明示的な物体 supervisio n なしで活動に関連する物体を局在化することを示す可視化が得られる。
- warp optical flow の改善はカメラの動きを補正することで約 4% の性能向上をもたらす。
- ConvLSTM ベースのアーキテクチャは時系列を通じて空間構造を保持し、物体の位置情報を動画表現へ効果的にエンコードする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。