Skip to main content
QUICK REVIEW

[論文レビュー] UniFormer: Unified Transformer for Efficient Spatiotemporal Representation Learning

Kunchang Li, Yali Wang|arXiv (Cornell University)|Jan 12, 2022
Human Pose and Action Recognition被引用数 108
ひとこと要約

UniFormerは3D畳み込みと時空間自己注意を統一トランスフォーマーに統合して、局所的な冗長性とグローバルな依存性を効率的に学習し、GFLOPsを大幅に削減しつつ高精度を達成します。

ABSTRACT

It is a challenging task to learn rich and multi-scale spatiotemporal semantics from high-dimensional videos, due to large local redundancy and complex global dependency between video frames. The recent advances in this research have been mainly driven by 3D convolutional neural networks and vision transformers. Although 3D convolution can efficiently aggregate local context to suppress local redundancy from a small 3D neighborhood, it lacks the capability to capture global dependency because of the limited receptive field. Alternatively, vision transformers can effectively capture long-range dependency by self-attention mechanism, while having the limitation on reducing local redundancy with blind similarity comparison among all the tokens in each layer. Based on these observations, we propose a novel Unified transFormer (UniFormer) which seamlessly integrates merits of 3D convolution and spatiotemporal self-attention in a concise transformer format, and achieves a preferable balance between computation and accuracy. Different from traditional transformers, our relation aggregator can tackle both spatiotemporal redundancy and dependency, by learning local and global token affinity respectively in shallow and deep layers. We conduct extensive experiments on the popular video benchmarks, e.g., Kinetics-400, Kinetics-600, and Something-Something V1&V2. With only ImageNet-1K pretraining, our UniFormer achieves 82.9%/84.8% top-1 accuracy on Kinetics-400/Kinetics-600, while requiring 10x fewer GFLOPs than other state-of-the-art methods. For Something-Something V1 and V2, our UniFormer achieves new state-of-the-art performances of 60.9% and 71.2% top-1 accuracy respectively. Code is available at https://github.com/Sense-X/UniFormer.

研究の動機と目的

  • 高次元のビデオデータから局所的な冗長性と長距離依存性を扱うことで、効率的な時空間学習を推進する。
  • 局所の3D畳み込みに似た操作とグローバル自己注意をタスク最適化アーキテクチャで統合した統一トランスフォーマー(UniFormer)を提案する。
  • 浅層と深層でそれぞれ局所とグローバルなトークン関係を扱う多ヘッド関係アグリゲータ(MHRA)を設計する。
  • Kinetics-400/600およびSomething-Something V1/V2で、GFLOPsを大幅に削減しつつ最先端の性能を示す。
  • 統一された注意機構、動的位置埋め込み、ステージングの効果を理解するためのアブレーションと分析を提供する。

提案手法

  • Dynamic Position Embedding(DPE)、Multi-Head Relation Aggregator(MHRA)、およびFeed-Forward Network(FFN)を備えたUniFormerブロックを導入する。
  • MHRAは浅い層で局所的な関係をスパイオテンポラル畳み込みに似た局所的トークン親和性行列で学習し、深い層で内容ベースの類似性(Q/K)に基づくグローバル関係を自己注意に似た形で学習する。
  • DPEは3D深度方向の畳み込みを用いた条件付き位置エンコーディングを拡張し、時空間の順序を維持し可変クリップ長を扱えるようにする。
  • 早期段階の局所MHRAと後期段階のグローバルMHRAを階層的な4段階ネットワークにスタックし、共同の時空間コンテキストモデリングを可能にする。
  • 局所MHRAをPWConv-DWConv-PWConvブロックとしての畳み込み風解釈を提供し、純粋な注意ベースの設計に比べて効率向上を実証する。
  • ImageNet-1K事前学習を用いたKinetics-400/600およびSomething-Something V1/V2で実験結果を示し、GFLOPsを大幅に抑えつつ高精度を達成する。

実験結果

リサーチクエスチョン

  • RQ1統一トランスフォーマーアーキテクチャは、効率的なビデオ理解のために局所的な時空間冗長性の低減とグローバルな依存性モデリングを同時に最適化できるか。
  • RQ23D畳み込みのような局所関係とグローバル自己注意を単一のMHRAモジュールで組み合わせると、既存のビデオトランスフォーマーより計算効率と精度のトレードオフが改善されるか。
  • RQ3動的位置埋め込みとブロックレベルの設計選択(ステージ間での局所 vs グローバルMHRA)は性能と転移性にどう影響するか。
  • RQ4事前学習、入力チューブサイズ、サンプリング戦略がUniFormerの耐久性と転移学習に与える影響は何か。
  • RQ5UniFormerは標準的なビデオベンチマーク(Kinetics-400/600、Something-Something V1/V2)で最先端手法と比べてどのような性能を示すか。

主な発見

MethodPretrain#FrameGFLOPsK400 Top-1K400 Top-5K600 Top-1K600 Top-5
Our UniFormer-SIN-1K16 × 1 × 416780.894.782.895.8
Our UniFormer-SIN-1K16 × 3 × 112557.684.969.492.1
Our UniFormer-BIN-1K16 × 3 × 129060.987.371.292.8
Our UniFormer-BIN-1K32 × 3 × 177761.087.671.292.8
Our UniFormer-BIN-1K32 × 3 × 4310883.095.484.996.7
  • ImageNet-1K事前学習を用い、Kinetics-400でトップ1 82.9%、Kinetics-600でトップ1 84.8%を達成し、多くの最先端手法よりも10x程度GFLOPsを削減している。
  • Something-Something V1でトップ1 60.9%、V2でトップ1 71.2%を上回る。
  • 浅い層の局所MHRAは局所的冗長性を低計算で効果的に減らし、深い層のグローバルMHRAは長距離依存性を高い判別力で捉える。
  • 時空間を統合したMHRAは分割された空間/時間注意より優れた転移学習性能を示す。
  • 動的位置埋め込み(DPE)は時空間位置情報を符号化することで精度を向上させ、Kinetics-400で最大約1.7%のトップ1向上をもたらす。
  • アブレーションにより、初期段階で局所MHRA、後半でグローバルMHRAを用いる構成が、純粋な局所または純粋なグローバル構成より好ましいバランスを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。