Skip to main content
QUICK REVIEW

[論文レビュー] What Do Self-Supervised Vision Transformers Learn?

Namuk Park, Wonjae Kim|arXiv (Cornell University)|May 1, 2023
Domain Adaptation and Few-Shot Learning被引用数 16
ひとこと要約

本論文は contrastive learning (CL) と masked image modeling (MIM) を自己監視型 Vision Transformers の比較に用い、CL がグローバルな形状を捉え、MIM が局所的なテクスチャを捉えることを示し、単純な CL+MIM ハイブリッドが各手法単独よりも優れることを実証する。

ABSTRACT

We present a comparative study on how and why contrastive learning (CL) and masked image modeling (MIM) differ in their representations and in their performance of downstream tasks. In particular, we demonstrate that self-supervised Vision Transformers (ViTs) have the following properties: (1) CL trains self-attentions to capture longer-range global patterns than MIM, such as the shape of an object, especially in the later layers of the ViT architecture. This CL property helps ViTs linearly separate images in their representation spaces. However, it also makes the self-attentions collapse into homogeneity for all query tokens and heads. Such homogeneity of self-attention reduces the diversity of representations, worsening scalability and dense prediction performance. (2) CL utilizes the low-frequency signals of the representations, but MIM utilizes high-frequencies. Since low- and high-frequency information respectively represent shapes and textures, CL is more shape-oriented and MIM more texture-oriented. (3) CL plays a crucial role in the later layers, while MIM mainly focuses on the early layers. Upon these analyses, we find that CL and MIM can complement each other and observe that even the simplest harmonization can help leverage the advantages of both methods. The code is available at https://github.com/naver-ai/cl-vs-mim.

研究の動機と目的

  • 自己监督型 ViTs を CL と MIM で訓練したとき、学習表現と下流性能がどのように異なるかを理解する。
  • 自己注意、表現変換、層の役割が CL と MIM でどのように異なるかを調査する。
  • CL と MIM が互補して linear probing と fine-tuning の結果を改善できるかを分析する。

提案手法

  • MoCo (CL) と SimMIM (MIM) を用いて学習させた ViT-B/16 モデルを ImageNet-1K をベースラインとして比較する。
  • 自己注意の挙動、実効受容野、層間の注意の多様性を分析する。
  • 表現を特徴づけるために linear probing、fine-tuning、 mutual information、cosine similarity、singular value spectra を用いる。
  • 表現の周波数偏り(低周波 vs 高周波)を研究するための Fourier 分析を実施する。
  • テクスチャへの頑健性を Stylized ImageNet および高周波ノイズに対して評価する。
  • CL と MIM の目的の線形結合という単純なハイブリッド学習アプローチを模索する。
Figure 1: Self-attentions of CL (MoCo) capture global information, but they collapse into homogeneous attention maps for all query tokens and heads. Self-attentions of MIM (SimMIM) mainly focus on local areas and similar tokens. We visualize the attention maps for two different query tokens in the b
Figure 1: Self-attentions of CL (MoCo) capture global information, but they collapse into homogeneous attention maps for all query tokens and heads. Self-attentions of MIM (SimMIM) mainly focus on local areas and similar tokens. We visualize the attention maps for two different query tokens in the b

実験結果

リサーチクエスチョン

  • RQ1CL と MIM における self-attention はグローバル対局所関係の観点でどのように異なるか。
  • RQ2ViT の深さに沿って、CL と MIM によってトークンおよび画像表現はどのように変換されるか。
  • RQ3CL と MIM で学習された表現に関与する層や成分はどれが最も影響力を持つか。
  • RQ4CL と MIM を効果的に組み合わせて、それぞれの補完的な長所を活用できるか。

主な発見

  • CL はグローバルな関係と物体の形状を捉えるが、後半の層では自己注意が均一なマップへと崩れる。
  • MIM は局所的な関係とテクスチャを捉え、トークンレベルの多様性を保持し、注意の崩壊を回避する。
  • CL は低周波情報に依存し、MIM は高周波情報に依存する、すなわち CL は形状バイアス、MIM はテクスチャバイアスを示す。
  • 後半の層は CL にとって特に重要であり、初期層は MIM により影響力が大きい。
  • CL と MIM の目的を線形に組み合わせた手法は、いずれか単独よりも linear probing および fine-tuning の性能を向上させる。
  • ハイブリッドモデルは、後半層で CL に似た性質が支配的で、初期層で MIM に似た性質が支配的であることを示す。
(a) Between heads
(a) Between heads

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。