QUICK REVIEW

[論文レビュー] Do Vision Transformers See Like Convolutional Neural Networks?

Maithra Raghu, Thomas Unterthiner|arXiv (Cornell University)|Aug 19, 2021

Domain Adaptation and Few-Shot Learning参考文献 50被引用数 109

ひとこと要約

論文はVision Transformers (ViTs) と CNN を分析し、ViTs が視覚情報をどのように表現するかを理解する。表現構造、アテンション挙動、スキップ接続、空間的局在、転移学習におけるデータ規模の影響の重要な違いを明らかにする。

ABSTRACT

Convolutional neural networks (CNNs) have so far been the de-facto model for visual data. Recent work has shown that (Vision) Transformer models (ViT) can achieve comparable or even superior performance on image classification tasks. This raises a central question: how are Vision Transformers solving these tasks? Are they acting like convolutional networks, or learning entirely different visual representations? Analyzing the internal representation structure of ViTs and CNNs on image classification benchmarks, we find striking differences between the two architectures, such as ViT having more uniform representations across all layers. We explore how these differences arise, finding crucial roles played by self-attention, which enables early aggregation of global information, and ViT residual connections, which strongly propagate features from lower to higher layers. We study the ramifications for spatial localization, demonstrating ViTs successfully preserve input spatial information, with noticeable effects from different classification methods. Finally, we study the effect of (pretraining) dataset scale on intermediate features and transfer learning, and conclude with a discussion on connections to new architectures such as the MLP-Mixer.

研究の動機と目的

ViTs がCNNsと比較して視覚情報をどのように表現するかを理解する。
ViTsとCNNs全体の内部表現構造を特徴づける。
自己注意とスキップ接続が情報伝播をどのように形作るかを調べる。
ViTsが空間情報と局在性をどのように保持するかを検討する。
データセット規模が中間表現と転移学習に与える影響を評価する。

提案手法

Centered Kernel Alignment (CKA) を用いて、ViTsと CNNs の層内および層間の表現類似度を定量化する。
ViT と CNN アーキテクチャを比較する (ViT-B/32, ViT-B/16, ViT-L/16, ViT-H/14 と ResNet-50x1, ResNet-152x2) … trained on JFT-300M or ImageNet.
ViT の自己注意ヘッドにおける注意距離を分析し、局所情報とグローバル情報の集約を評価する。
表現伝播における役割を検証するためにスキップ接続を削除する介入を行う。
最終層のトークン表現を入力パッチと比較することで CK A を用いて空間的局在を評価し、直線的プローブを用いて局在能力を評価する。
モデルサイズ全体で線形プローブを用いて、中間表現に対する事前学習データ規模の効果を検討する。

実験結果

リサーチクエスチョン

RQ1ViTs はCNNsと比較して層間でより均一な表現構造を発展させるのか？
RQ2自己注意とスキップ接続はViTsとCNNsで情報伝播と特徴表現にどのような影響を与えるのか？
RQ3ViTs は高位の層で入力の空間情報を保持するのか、そしてこれが局在タスクにどのように影響するのか？
RQ4事前学習データの規模がViTの中間表現の品質と転移学習にどのように影響するのか？
RQ5将来のアーキテクチャおよび物体検出などのタスクに対するViTs の表現の含意は何か？

主な発見

ViTs は層を跨って高度に均一な表現を示すのに対し、CNNs は明確なステージベースの類似性パターンを示す。
ViT の下位層は局所情報とグローバル情報の両方にアクセスする一方、上位層はグローバル情報に依存する。CNNs は固定の局所受容野を持つのとは異なる。
ViTs のスキップ接続は層間で表現を強く伝搬させ、より深い層で CLS トークンから空間トークン伝搬への相転移を伴う。
ViTs は高位層で入力の空間情報を保持し、局在は CLS ベースの分類によって影響を受ける。GAP プーリングは局在化を低減する。
データセット規模（例: JFT-300M）は、特に大規模な ViT モデルにとって、高次/中間表現を大幅に改善する。
ViT の下位層はローカルヘッドを持つ ResNet の特徴に似ることがあるが、グローバルに注意を向けるヘッドは定性的に異なる表現を計算する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。