QUICK REVIEW

[論文レビュー] Multiscale Vision Transformers

Haoqi Fan, Bo Xiong|arXiv (Cornell University)|Apr 22, 2021

Advanced Neural Network Applications参考文献 109被引用数 55

ひとこと要約

マルチスケール視覚トランスフォーマー（MViT）は、動画および画像認識のためにマルチスケールの特徴階層をトランスフォーマーと統合し、大規模事前学習に依存する同時期のViTよりも計算量が少ない中で高い精度を達成する。

ABSTRACT

We present Multiscale Vision Transformers (MViT) for video and image recognition, by connecting the seminal idea of multiscale feature hierarchies with transformer models. Multiscale Transformers have several channel-resolution scale stages. Starting from the input resolution and a small channel dimension, the stages hierarchically expand the channel capacity while reducing the spatial resolution. This creates a multiscale pyramid of features with early layers operating at high spatial resolution to model simple low-level visual information, and deeper layers at spatially coarse, but complex, high-dimensional features. We evaluate this fundamental architectural prior for modeling the dense nature of visual signals for a variety of video recognition tasks where it outperforms concurrent vision transformers that rely on large scale external pre-training and are 5-10x more costly in computation and parameters. We further remove the temporal dimension and apply our model for image classification where it outperforms prior work on vision transformers. Code is available at: https://github.com/facebookresearch/SlowFast

研究の動機と目的

トランスフォーマーモデル内のマルチスケール特徴階層を通じて、密な視覚信号構造を活用する動機付け。
空間的および時間的解像度を低減しつつ、段階的にチャネル容量を増加させるマルチスケールトランスフォーマーアーキテクチャを提案する。
外部前訓練なしで、動画認識ベンチマーク（Kinetics、Charades、SSv2、AVA）と画像分類（ImageNet）に対するMViTを評価する。
精度、計算量（FLOPs）、パラメータ効率の観点から、現代の視覚トランスフォーマーとMViTを比較する。

提案手法

柔軟な時空解像度をトランスフォーマーブロック内で有効にするため、Q、K、Vシーケンスをプーリングする Multi Head Pooling Attention（MHPA）を導入する。
畳み込み的プーリング演算子Pを、カーネル、ストライド、パディングを用いて定義し、シーケンス長を縮小してアテンション計算を高速化する。
ネットワークをスケール段階に組織し、各段階が時空分解能をダウンサンプリングしつつ、チャネル容量を拡張する。
プーリングと線形層を用いて次元を揃え、解像度とチャネルの変化に適応するスキップ接続を使用する。
具体的なMViTバリアント（例：MViT-B、MViT-S）を、特定の段階構成、解像度、チャネル成長とともに実装し、精度と効率のバランスを取る。
Kinetics上でImageNet前訓練なしにスクラッチから学習し、推論FLOPs、メモリ、精度を報告する。ViTベースラインおよび他の動画モデルと比較する。

実験結果

リサーチクエスチョン

RQ1MHPAを介してマルチスケール特徴階層を導入すると、動画認識タスクにおける精度と効率はどう変化するか？
RQ2MViTは大規模な外部事前学習なしで、同時期の視覚トランスフォーマーと競合的または優位な性能を達成できるか？
RQ3MHPAのようなマルチスケール時空カーネルを用いると、動画トランスフォーマーの時間的バイアスは変化するか？
RQ4時間成分を持たない画像分類タスクへのマルチスケール設計の転移はどれほど効果的か？

主な発見

MViTは、外部前訓練データを使用せずに、同時期の動画トランスフォーマーに対して顕著な性能向上を達成する。
MViTは、同等または高い精度で、複数のViTベースの動画モデルに対して低い計算量とパラメータ数を実現する。
時空の次元を取り除くことで画像分類への適用を行うと、従来の視覚トランスフォーマーより改善が得られる。
MHPAベースのマルチスケール設計は、空間と時間の密な視覚信号のモデリングを効率的に可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。