QUICK REVIEW

[論文レビュー] A Survey on Visual Transformer

Kai Han, Yunhe Wang|arXiv (Cornell University)|Dec 23, 2020

Advanced Neural Network Applications参考文献 70被引用数 220

ひとこと要約

この調査は、バックボーン学習、ハイ/ミッドレベル vision、ロー/低レベル vision、そしてビデオタスク全体の vision transformer モデルをレビューし、利点・制限・効率的な派生の分析を行う。

ABSTRACT

Transformer, first applied to the field of natural language processing, is a type of deep neural network mainly based on the self-attention mechanism. Thanks to its strong representation capabilities, researchers are looking at ways to apply transformer to computer vision tasks. In a variety of visual benchmarks, transformer-based models perform similar to or better than other types of networks such as convolutional and recurrent neural networks. Given its high performance and less need for vision-specific inductive bias, transformer is receiving more and more attention from the computer vision community. In this paper, we review these vision transformer models by categorizing them in different tasks and analyzing their advantages and disadvantages. The main categories we explore include the backbone network, high/mid-level vision, low-level vision, and video processing. We also include efficient transformer methods for pushing transformer into real device-based applications. Furthermore, we also take a brief look at the self-attention mechanism in computer vision, as it is the base component in transformer. Toward the end of this paper, we discuss the challenges and provide several further research directions for vision transformers.

研究の動機と目的

バックボーン、ハイ/ミッドレベル、ロー/低レベル、ビデオといった適用分野によって分類された vision transformer モデルの開発を調査する。
自己注意機構、位置エンコーディング、アーキテクチャのバリエーションと、実機デプロイメントのための効率化手法を分析する。
vision transformers の課題、トレードオフ、および潜在的な研究方向性について論じる。
代表的モデルの比較を提供し、将来の研究を導く要点を要約する。

提案手法

標準的なトランスフォーマー構成要素と自己注意の式を説明する（Attention(Q,K,V) = softmax(QK^T / sqrt(d_k)) V）。
ViT と画像向けに適応する派生形を説明する（パッチ埋め込み、位置エンコーディング、クラス・トークン）。
バックボーン、ハイ/ミッドレベル vision、ロー/低レベル vision、およびビデオ処理モデルと効率化アプローチを調査する。
自己教師あり学習と生成/自己教師あり前処理（iGPT、MAE、SimMIM）および対比学習（MoCo v3）を要約する。
データと計算量に応じた実用展開のため、CNN+トランスフォーマーのハイブリッドと純粋トランスフォーマーのバックボーンを、入手可能な定量的結果とともに比較する。

実験結果

リサーチクエスチョン

RQ1vision transformers が適用された主なカテゴリとタスクは何か。
RQ2 locality、効率性、性能を改善するための主なアーキテクチャ変種と技術は何か。
RQ3vision transformers は精度、スループット、データ効率の点でCNNsとどのように比較されるか。
RQ4vision transformers の効果的な事前学習戦略（ supervise、self-supervised、generative）とは何か。
RQ5vision transformers の未解決の課題と今後の方向性は何か。

主な発見

Model	Params (M)	FLOPs (B)	Throughput (image/s)	Top-1 (%)
ResNet-50	25.6	4.1	1226	79.1
ResNet-101	44.7	7.9	753	79.9
ResNet-152	60.2	11.5	526	80.8
EfficientNet-B0	5.3	0.39	2694	77.1
EfficientNet-B1	7.8	0.70	1662	79.1
EfficientNet-B2	9.2	1.0	1255	80.1
EfficientNet-B3	12	1.8	732	81.6
EfficientNet-B4	19	4.2	349	82.9
DeiT-Ti	5	1.3	2536	72.2
DeiT-S	22	4.6	940	79.8
DeiT-B	86	17.6	292	81.8
T2T-ViT-14	21.5	5.2	764	81.5
T2T-ViT-19	39.2	8.9	464	81.9
T2T-ViT-24	64.1	14.1	312	82.3
PVT-Small	24.5	3.8	820	79.8
PVT-Medium	44.2	6.7	526	81.2
PVT-Large	61.4	9.8	367	81.7
TNT-S	23.8	5.2	428	81.5
TNT-B	65.6	14.1	246	82.9
CPVT-S	23	4.6	930	80.5
CPVT-B	88	17.6	285	82.3
Swin-T	29	4.5	755	81.3
Swin-S	50	8.7	437	83.0
Swin-B	88	15.4	278	83.3
Twins-SVT-S	24	2.9	1059	81.7
Twins-SVT-B	56	8.6	469	83.2
Twins-SVT-L	99.2	15.1	288	83.7
Shuffle-T	29	4.6	791	82.5
Shuffle-S	50	8.9	450	83.5
Shuffle-B	88	15.6	279	84.0
CMT-S	25.1	4.0	563	83.5
CMT-B	45.7	9.3	285	84.5
VOLO-D1	27	6.8	481	84.2
VOLO-D2	59	14.1	244	85.2
VOLO-D3	86	20.6	168	85.4
VOLO-D4	193	43.8	100	85.7
VOLO-D5	296	69.0	64	86.1

Vision transformers は多くの視覚ベンチマークで競争力のあるまたは優れた性能を提供し、いくつかの設定でCNNに近づくまたは上回る。
Pure transformer backbones like ViT は CNN を超えるには大規模な事前学習を必要とし、DeiT や蒸留によってデータ効率が向上。
局所性を高めるバリエーション（TNT、Swin、RegionViT など）および畳み込みを組み込んだハイブリッド（CvT、CvViT、LeViT）によりデータ効率とリアルタイム性能が向上。
自己教師ありおよび生成前処理（iGPT、MAE、SimMIM、MoCo v3）は、ラベル付きデータが少ない場合でも強力な表現を可能にする。
効率的なトランスフォーマー設計（窓付き注意、階層的ピラミッド、NAS風アーキテクチャ）は、実用展開のための精度、FLOPs、スループットのバランスをとる。
ベンチマーク比較では、多様なモデル（例：DeiT、Swin、TNT、ViT系派生）がImageNet でトップ-1 精度79–86%のレンジを、パラメータ数と計算量を変えながら達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。