[論文レビュー] An Image is Worth 16x16 Words, What is a Video Worth?
この論文は STAM を提案する。STAM は完全にトランスフォーマー型のビデオアクション認識モデルで、空間的および時間的自己注意を用いて、均等にサンプリングされた sparse フレームの少数からアクションを認識し、より少ないフレーム数で最先端レベルの精度に近い性能と、推論の大幅な高速化を実現します。
Leading methods in the domain of action recognition try to distill information from both the spatial and temporal dimensions of an input video. Methods that reach State of the Art (SotA) accuracy, usually make use of 3D convolution layers as a way to abstract the temporal information from video frames. The use of such convolutions requires sampling short clips from the input video, where each clip is a collection of closely sampled frames. Since each short clip covers a small fraction of an input video, multiple clips are sampled at inference in order to cover the whole temporal length of the video. This leads to increased computational load and is impractical for real-world applications. We address the computational bottleneck by significantly reducing the number of frames required for inference. Our approach relies on a temporal transformer that applies global attention over video frames, and thus better exploits the salient information in each frame. Therefore our approach is very input efficient, and can achieve SotA results (on Kinetics dataset) with a fraction of the data (frames per video), computation and latency. Specifically on Kinetics-400, we reach $80.5$ top-1 accuracy with $ imes 30$ less frames per video, and $ imes 40$ faster inference than the current leading method. Code is available at: https://github.com/Alibaba-MIIL/STAM
研究の動機と目的
- 映像データ量の増加に伴う効率的なビデオアクション認識を動機づける。
- 3D畳み込みを使わず、時空情報をモデル化する完全なトランスフォーマーベースのアプローチを開発する。
- 入力フレーム要件を削減しつつ、最先端レベルの精度を維持または超過する。
- エンドツーエンドの訓練可能性と、クリップベースの3D CNN手法に対する実用的推論の利点を示す。
提案手法
- フレームを文章、パッチを単語として扱い、ビデオに対するビジョン・トランスフォーマーの概念を拡張する。
- 空間と時間のトランスフォーマを分離した Space Time Attention Model (STAM) を提案する。
- 各フレーム内のパッチに対する空間的注意を通じてフレームレベルの埋め込みを計算し、その後、フレーム間の時間的依存関係を時間的トランスフォーマでモデル化する。
- 各フレームごとに分類トークンを使用し、最終的なビデオレベルのトークナイザーで予測を出力する。
- 複雑さを管理可能に保つため、計算的に効率的な分離された空間-時間注意を提供する(O(FN^2 + F^2)。
- 事前学習済みの空間バックボーン(ViT-B/ViT系)を活用しつつ、時間的トランスフォーマーの部品をゼロから訓練する。
実験結果
リサーチクエスチョン
- RQ1大きくサンプルされたフレームに対して、完全なトランスフォーマーベースのモデルは長距離の時空依存性を捉えられるか?
- RQ2空間的注意と時間的注意を分離することは、結合した空間-時間注意と比べて効率と精度を改善するか?
- RQ3STAM は significantly fewer frames を使用した場合、最先端の3D CNNと比較してどの程度性能を発揮するか?
- RQ4Kinetics-400 のようなベンチマークで、フレーム数、精度、推論速度のトレードオフはどうなるか?
主な発見
- STAM は、はるかに少ないフレーム数(例: 16 frames)で最先端に匹敵する精度と、推論を大幅に高速化した性能を示す。
- Kinetics-400 で、16 フレームの STAM は 79.3% のトップ1精度で 270 GFLOPs、64 フレームでは 1080 GFLOPs で 80.5% に達する。
- X3D-L と比較して、STAM は精度が高く(79.3% vs 77.5%)、計算量が低く(270 GFLOPs vs 744 GFLOPs)、推論が圧倒的に速い(検証セットで 0.05 時間 vs 2.27 時間)。
- STAM の 16 フレームは、単一 GPU 上で VPS(frames per second)で X3D-L を 43 倍上回る。
- 時間的注意は空間のみモデルより有意な精度向上を提供し、異なるバックボーンを用いても時間的トランスフォーマーで一貫して性能が向上する。
- 16 から 32 または 64 へフレームを増やすと、精度は約0.6%ずつ増加する程度であり、さらなるフレーム数の増加は性能を線形には向上させない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。