QUICK REVIEW

[論文レビュー] Is Space-Time Attention All You Need for Video Understanding?

Gedas Bertasius, Heng Wang|arXiv (Cornell University)|Feb 9, 2021

Human Pose and Action Recognition参考文献 59被引用数 1,309

ひとこと要約

TimeSformerは、空間と時間の自己注意のみを使用して畳み込みのない動画分類器を構築し、分割された空間-時間の注意がKineticsベンチマークで最も高い精度を達成します。

ABSTRACT

We present a convolution-free approach to video classification built exclusively on self-attention over space and time. Our method, named "TimeSformer," adapts the standard Transformer architecture to video by enabling spatiotemporal feature learning directly from a sequence of frame-level patches. Our experimental study compares different self-attention schemes and suggests that "divided attention," where temporal attention and spatial attention are separately applied within each block, leads to the best video classification accuracy among the design choices considered. Despite the radically new design, TimeSformer achieves state-of-the-art results on several action recognition benchmarks, including the best reported accuracy on Kinetics-400 and Kinetics-600. Finally, compared to 3D convolutional networks, our model is faster to train, it can achieve dramatically higher test efficiency (at a small drop in accuracy), and it can also be applied to much longer video clips (over one minute long). Code and models are available at: https://github.com/facebookresearch/TimeSformer.

研究の動機と目的

畳み込みなしの動画モデリングを動機づけるため、時空間学習の自己注意を活用する。
ViTを動画へ拡張するため、フレームパッチを空間-時間シーケンスのトークンとして扱う。
自己注意方式を体系的に比較し、動画分類の効率と精度の設計を特定する。

提案手法

動画クリップをフレームレベルのパッチのシーケンスとして表現し、位置エンコーディングでトークンへ埋め込む。
空間-時間の近傍を対象にマルチヘッド自己注意を適用して、動画用のTransformerエンコーダを構築する。
5つの空間-時間注意方式（Space, Joint Space-Time, Divided Space-Time, Sparse Local Global, Axial）を調査し、性能と効率を比較する。
より精度とスケーラビリティが高い設計としてDivided Space-Time Attention（時間→空間）の設計を採用する。
ImageNetで事前学習（1K または 21K）し、動画データセットで微調整。精度と訓練/推論コストの点で3D CNNベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1畳み込みを用いず自己注意だけで、動画理解のための効果的な時空間表現を学習できるか？
RQ2動画分類における精度と計算効率の最良のトレードオフを提供する空間-時間注意方式はどれか？
RQ3TimeSformerはKinetics-400/600やSomething-Something-V2の標準ベンチマークで3D CNNと比較してどうなるか？
RQ4事前学習データの規模（ImageNet-1K vs ImageNet-21K）と入力長/解像度がTimeSformerの性能に与える影響は？
RQ5TimeSformerは従来のCNNベース手法と比べて長距離動画モデリングを効率的に実現できるか？

主な発見

注意	パラメータ	K400	SSv2
Space	85.9M	76.9	36.6
Joint Space-Time	85.9M	77.4	58.5
Divided Space-Time	121.4M	78.0	59.5
Sparse Local Global	121.4M	75.9	56.3
Axial	156.8M	73.5	56.2

Divided Space-Time Attentionは、テストした方式の中でKinetics-400とSomething-Something-V2で最良の精度を達成。
Divided attentionを用いたTimeSformerは、Joint Space-Timeより精度とスケーラビリティが高く、特に空間解像度とクリップ長が大きくなるにつれて顕著。
TimeSformerはKinetics-400/600で競争力のある、または最先端の結果を達成し、同等の3D CNNより推論コストが低く、訓練も速い。
ImageNet-21Kでの事前学習は一般にK400の結果を改善し、SSv2はImageNet-1K/21Kの事前学習から同様に利益を受ける。
TimeSformerは長い入力クリップ（最大96フレーム）を可能にし、パッチ列として動画を扱うことでスケーラブルな訓練を実現し、訓練効率では3D CNNを上回ることが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。