QUICK REVIEW

[論文レビュー] What do Vision Transformers Learn? A Visual Exploration

Amin Ghiasi, Hamid Kazemi|arXiv (Cornell University)|Dec 13, 2022

Advanced Neural Network Applications被引用数 20

ひとこと要約

この論文は Vision Transformers (ViTs) を可視化して学習内容を理解し、言語監督で訓練された ViTs が意味概念に反応し、最後の層まで空間情報を保持し、CNN より背景情報に依存すること、そして最後の層のトークン混合が学習されたプーリングのように機能する、ということを示しています。

ABSTRACT

Vision transformers (ViTs) are quickly becoming the de-facto architecture for computer vision, yet we understand very little about why they work and what they learn. While existing studies visually analyze the mechanisms of convolutional neural networks, an analogous exploration of ViTs remains challenging. In this paper, we first address the obstacles to performing visualizations on ViTs. Assisted by these solutions, we observe that neurons in ViTs trained with language model supervision (e.g., CLIP) are activated by semantic concepts rather than visual features. We also explore the underlying differences between ViTs and CNNs, and we find that transformers detect image background features, just like their convolutional counterparts, but their predictions depend far less on high-frequency information. On the other hand, both architecture types behave similarly in the way features progress from abstract patterns in early layers to concrete objects in late layers. In addition, we show that ViTs maintain spatial information in all layers except the final layer. In contrast to previous works, we show that the last layer most likely discards the spatial information and behaves as a learned global pooling operation. Finally, we conduct large-scale visualizations on a wide range of ViT variants, including DeiT, CoaT, ConViT, PiT, Swin, and Twin, to validate the effectiveness of our method.

研究の動機と目的

改良された特徴可視化技術を通じて ViTs が何を学習するかを調査する。
空間情報の維持と背景情報対前景情報の依存という観点で ViTs を CNN と比較する。
言語監督付きの ViTs（例：CLIP）が標準の画像分類 ViTs の特徴表現とどのように異なるかを評価する。
ViTs の最終層が情報をどのようにグローバライズするか、層を通じて空間情報がどのように持続するかを検討する。

提案手法

高次元のフィードフォワード特徴の解釈可能な視覚化を可能にする、ViTs 向けに特化した勾配ベースの活性化最大化フレームワークを開発する。
各層の解釈性を評価するため、キー、クエリ、値、およびフィードフォワード出力を可視化・比較する。
データ拡張のエンサンブル、総変動正則化、および特定の画像拡張（Jitter、ColorShift、Gaussian smoothing）を用いて可視化品質を向上させる。
パッチ単位の活性化マップを分析して空間情報の保持と CLS トークンと非 CLS トークンの挙動を評価する。
ViT の各種変種（ViT-B16、DeiT、CoaT、ConViT、PiT、Swin、Twin）にわたる大規模な視覚化を実施して手法の頑健性を検証する。

実験結果

リサーチクエスチョン

RQ1ViTs は層を横断して内部表現をどのように視覚化・解釈するか？
RQ2ViTs はパッチレベルで空間情報を保持するか、最終層での変化はどうなるか？
RQ3ViT の最後の層はトークンをどのように混合し、これはプーリングやグローバライゼーションに類似しているか？
RQ4分類において背景情報と前景情報の利用で ViTs は CNN とどう比較されるか？
RQ5言語監督（CLIP）の ViT 特徴表現への影響は何か？

主な発見

アーキテクチャ	全体画像	前景	背景
ViT-B32	98.44	93.91	28.10
ViT-L16	99.57	96.18	33.69
ViT-L32	99.32	93.89	31.07
ViT-B16	99.22	95.64	31.59
ResNet-50	98.00	89.69	18.69
DenseNet121	96.55	89.58	17.53
MobileNetv2	96.09	86.84	15.94

ViTs における前方伝播の表現が最も解釈しやすい可視化を生み出す一方、注意力成分（キー/クエリ/値）は高次元で多モーダルに近い表現のため解釈が難しい。
ViTs のパッチ単位の活性化マップはしばしばサリエンシー・マップに似ており、最終層を除き層を通じてパッチレベルの空間関係を保持する。
最後の ViT 層は平均プーリングに似たトークン混合を行い、CLS トークンのグローバル情報統合を可能にする（個々のパッチにも適用される場合がある）。
ViTs は背景情報を CNN より効果的に正しいクラス識別に使用する傾向があり、背景が取り除かれても性能の低下が小さい。一方 CNN は高周波のテクスチャ情報により依存する。
CLIP で訓練された ViTs は、単なるオブジェクト検出器を超えた意味的・概念的 features（例：病的概念、音楽関連概念）を示し、言語監督が表現を形成していることを反映している。
ViTs は層を通じて空間情報を保持し、テクスチャから部品へ、最終的には物体へと CNN に類似した推移を示し、言語監督が抽象概念へと押し進める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。