Skip to main content
QUICK REVIEW

[論文レビュー] Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers

Mandela Patrick, Dylan Campbell|arXiv (Cornell University)|Jun 9, 2021
Human Pose and Action Recognition参考文献 89被引用数 49
ひとこと要約

本論文は動画トランスフォーマーに対する軌跡アテンションを提案し、動作軌跡に沿ってプーリングを可能にし、また注意機能を効率的に近似するOrthoformerを提案します。Kinetics、Something–Something V2、Epic-Kitchens および関連ベンチマークで最先端の結果を達成します。

ABSTRACT

In video transformers, the time dimension is often treated in the same way as the two spatial dimensions. However, in a scene where objects or the camera may move, a physical point imaged at one location in frame $t$ may be entirely unrelated to what is found at that location in frame $t+k$. These temporal correspondences should be modeled to facilitate learning about dynamic scenes. To this end, we propose a new drop-in block for video transformers -- trajectory attention -- that aggregates information along implicitly determined motion paths. We additionally propose a new method to address the quadratic dependence of computation and memory on the input size, which is particularly important for high resolution or long videos. While these ideas are useful in a range of settings, we apply them to the specific task of video action recognition with a transformer model and obtain state-of-the-art results on the Kinetics, Something--Something V2, and Epic-Kitchens datasets. Code and models are available at: https://github.com/facebookresearch/Motionformer

研究の動機と目的

  • 時間を別の軸として扱うのではなく、動作の軌跡を捉えることで動画トランスフォーマーの時間モデリングをよりよくする。
  • 動画内で暗黙的に決定される動作経路に沿って情報を集約する軌跡アテンションを提案する。
  • アテンションの二次計算とメモリコストを、効率的な近似(Orthoformer)で対処する。
  • 標準的な動画アクション認識ベンチマークで最先端の性能を実証する。
  • トークン化、位置エンコーディング、アーキテクチャの選択の影響を理解するための分析とアブレーションを提供する。

提案手法

  • 軌跡アテンションを二段階のアテンションとして導入する: (i) フレーム間での空間アテンションによって軌跡トークンを形成, (ii) これらの軌跡に沿って1Dの時間的アテンションでプーリングする。
  • フレームごとの空間アテンションを用いて軌跡トークンを計算する: tilde{y}_{stt'} = sum_{s'} v_{s't'} * softmax(q_{st}^T k_{s't'}) / sum_{s''} softmax(q_{st}^T k_{s''t'}) .
  • 軌跡トークンを新しいクエリ/キー/バリューへ射影し、時間軸に沿って1Dの時間アテンションを適用する: y_{st} = sum_{t'} tilde{v}_{stt'} * softmax(tilde{q}_{st}^T tilde{k}_{stt'}) / sum_{t''} softmax(tilde{q}_{st}^T tilde{k}_{st t''}).
  • Orthoformerを提案する。固定されたプロトタイプ集合の中から最も直交性の高いサブセットを選択することで、計算量を二次から実質的に線形近くへ低減する低コストのアテンション近似。
  • 動画データの時系列冗長性を利用するためにプロトタイプを時間を超えて共有し、メモリ節約を可能にする。
  • アルゴリズム(Algorithm 1 および Algorithm 2) を提供し、Nyströmformer および Performer と比較して、より少ないプロトタイプで競合するまたは優れた精度を示す。

実験結果

リサーチクエスチョン

  • RQ1動画トランスフォーマーのアテンションを、空間と時間を同等に扱うのではなく、動作軌跡を明示的にモデルするよう bias させるにはどうすればよいか。
  • RQ2軌跡ベースのプーリングは、特に強い動作手が要素であるデータセット(例: Something–Something V2)で、ジョイントまたは空間-時間を分割したアテンションと比較して動作認識を改善するか。
  • RQ3プロトタイプベースのアテンション近似(Orthoformer)は、動画データやそれ以外でも精度を保ちつつ計算資源とメモリの効率を大幅に向上させることができるか。
  • RQ4入力トークン化(立方体 vs. 正方形)と空間-時間位置エンコーディングが軌跡アテンションの性能に与える影響はどのようになるか。
  • RQ5軌跡アテンションは、標準的な動画トランスフォーマーのベースラインにおけるトークン化や位置エンコーディングなどの設計選択とどのように相互作用するか。

主な発見

  • 軌跡アテンションは、動作に敏感なデータセットでジョイントまたは空間-時間を分割したアテンションより高い精度を発揮し、特に Something–Something V2 で顕著な改善を示す。
  • モデルはKinetics、Something–Something V2、Epic-Kitchens など複数のベンチマークで最先端の結果を示す。
  • Orthoformer は、長距離アテンションのタスクや動画認識ベンチマークにおいて、厳密なアテンションや Nyströmformer に比べ記憶と計算を大幅に削減しつつ競合または優れた精度を提供。
  • キュービックトークン化と分離型の空間-時間位置エンコーディングは、特に動作の多いデータセットで軌跡アテンションの性能を向上させる。
  • プロトタイプの時間共有とフレーム毎の正規化は効率性と精度に寄与し、これらの設計を変更すると損失が生じるアブレーション結果が示されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。