QUICK REVIEW

[論文レビュー] How Do Vision Transformers Work?

Namuk Park, Songkuk Kim|arXiv (Cornell University)|Feb 14, 2022

Visual Attention and Saliency Detection被引用数 202

ひとこと要約

本論文は、Vision Transformers (ViTs) におけるマルチヘッド自己注意が損失地形を平坦化し、データ特異的な空間的平滑化として機能する様子を分析し、CNNブロックとMSAを組み合わせたAlterNetを提案して、大規模および小規模データ領域の両方で性能を向上させる。

ABSTRACT

The success of multi-head self-attentions (MSAs) for computer vision is now indisputable. However, little is known about how MSAs work. We present fundamental explanations to help better understand the nature of MSAs. In particular, we demonstrate the following properties of MSAs and Vision Transformers (ViTs): (1) MSAs improve not only accuracy but also generalization by flattening the loss landscapes. Such improvement is primarily attributable to their data specificity, not long-range dependency. On the other hand, ViTs suffer from non-convex losses. Large datasets and loss landscape smoothing methods alleviate this problem; (2) MSAs and Convs exhibit opposite behaviors. For example, MSAs are low-pass filters, but Convs are high-pass filters. Therefore, MSAs and Convs are complementary; (3) Multi-stage neural networks behave like a series connection of small individual models. In addition, MSAs at the end of a stage play a key role in prediction. Based on these insights, we propose AlterNet, a model in which Conv blocks at the end of a stage are replaced with MSA blocks. AlterNet outperforms CNNs not only in large data regimes but also in small data regimes. The code is available at https://github.com/xxxnell/how-do-vits-work.

研究の動機と目的

MSA が一般化を改善する理由と、それが損失地形にどのように影響するかを調査する。
頻度特性とデータ特異性の観点から、MSA と Convs を比較する。
MSA と Convs がハイブリッドアーキテクチャでどのように協調できるかを説明する。
CNNブロックとMSAブロックを組み合わせるアーキテクチャの設計指針を提案する。
段階的に交互配置されたCNN/MSAパターンが、データ領域を問わずCNNを上回ることを示す。

提案手法

Self-attention の式を用いて、MSAs を特徴マップの訓練可能な空間的平滑化として分析する。
損失地形の可視化とヘッセ行列スペクトルを用いて最適化特性を評価する。
特徴マップに対してフーリエ解析を行い、MSA と Convs の高周波成分を比較する。
局所性制約付きMSAと多段階アーキテクチャ（PiT、Swin）をCNNsと比較して実験する。
構築ルールに従い、ステージ末尾の Convs を MSAs に置換することで AlterNet を提案する。
CIFAR-100 と ImageNet で AlterNet を評価し、CNNs および ViTs と比較する。

実験結果

リサーチクエスチョン

RQ1MSA は長距離依存性として機能するのか、それともデータ特異的な空間的平滑子として機能するのか？
RQ2MSA と Convs は、損失地形と最適化ダイナミクスにおいてどのように異なるのか？
RQ3CNNブロックとMSAブロックを交互配置するハイブリッドアーキテクチャは、データ領域を問わず性能を向上させることができるのか？
RQ4多段階ネットワークにおいてMSAsの利点を最大化する設計ルールは何か？

主な発見

MSAs は損失地形を平坦化し、一般化を改善する。主に長距離依存性ではなくデータ特異性による。
MSAs は低パスフィルタとして作用し、Convs は高パスフィルタとして作用する；相補的である。
多段階ネットワークは一連の小さなモデルのように振る舞い、ステージの端にあるMSAsが予測上重要な役割を果たす。
適切な受容野を持つ局所的なMSAは、負のヘッセ固有値を減らすことで最適化を改善する。
末段配置でMSAsを畳み込み、後段でヘッド数を増やすことで、小規模および大規模データ領域でより良い性能を得る（AlterNet）。
AlterNet は CIFAR-100 で CNNs および ViTs を上回り、ImageNet へとスケールし、小規模データ領域でも性能を発揮する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。