Skip to main content
QUICK REVIEW

[論文レビュー] Intriguing Properties of Vision Transformers

Muzammal Naseer, Kanchana Ranasinghe|arXiv (Cornell University)|May 21, 2021
Advanced Neural Network Applications参考文献 46被引用数 301
ひとこと要約

要約: この論文は Vision Transformers (ViTs) が遮蔽、ドメインシフト、置換に対して非常に頑健であり、CNN に対して形状バイアスが強く、ピクセル監視なしで形状トークンを介してセグメンテーションを行うことができ、さらにオフ・ザ・シェルのViT特徴を他タスクへ転用可能であることを示している。すべては柔軟な自己注意機構に基づく受容野のおかげである。

ABSTRACT

Vision transformers (ViT) have demonstrated impressive performance across various machine vision problems. These models are based on multi-head self-attention mechanisms that can flexibly attend to a sequence of image patches to encode contextual cues. An important question is how such flexibility in attending image-wide context conditioned on a given patch can facilitate handling nuisances in natural images e.g., severe occlusions, domain shifts, spatial permutations, adversarial and natural perturbations. We systematically study this question via an extensive set of experiments encompassing three ViT families and comparisons with a high-performing convolutional neural network (CNN). We show and analyze the following intriguing properties of ViT: (a) Transformers are highly robust to severe occlusions, perturbations and domain shifts, e.g., retain as high as 60% top-1 accuracy on ImageNet even after randomly occluding 80% of the image content. (b) The robust performance to occlusions is not due to a bias towards local textures, and ViTs are significantly less biased towards textures compared to CNNs. When properly trained to encode shape-based features, ViTs demonstrate shape recognition capability comparable to that of human visual system, previously unmatched in the literature. (c) Using ViTs to encode shape representation leads to an interesting consequence of accurate semantic segmentation without pixel-level supervision. (d) Off-the-shelf features from a single ViT model can be combined to create a feature ensemble, leading to high accuracy rates across a range of classification datasets in both traditional and few-shot learning paradigms. We show effective features of ViTs are due to flexible and dynamic receptive fields possible via the self-attention mechanism.

研究の動機と目的

  • 遮蔽、ドメインシフト、摂動などのノイズ下で ViTs と CNNs の頑健性と一般化を調査することを動機づける。
  • 自己注意と動的受容野が頑健性と表現品質にどのように寄与するかを特徴づける。
  • ViTs における形状と質感のバイアスを探究し、それらが性能とセグメンテーション能力に与える影響を評価する。
  • ViTs の形情報を組み込むためのアーキテクチャ的アイデア(形状トークン)を提案し、オフ・ザ・シェルな ViT 特徴の転移可能性を評価する。
  • 単一モデルの特徴アンサンブルを用いた少数ショットおよび多様な下流タスクにおける ViT の実用的利点を実証する。

提案手法

  • ViT ファミリ Variants(ViT, DeiT, T2T)にわたる fifteen vision datasets での広範な実験を実施。
  • PatchDrop を用いた Random、Salient、Non-salient マスクによる遮蔽シナリオを適用し頑健性を検証。
  • Stylized ImageNet での学習と dedicated shape token の導入によって質感対形状のバイアスを分析。
  • 画像パッチのシャッフルとパッチの粒度変更による位置エンコーディングの役割を調査。
  • 敵対的および一般的な劙乱(robustness)の評価を augmentation の有無とともに実施。
  • 異なるブロックからのクラス・トークンをアンサンブルしてダウンストリームの分類や少数ショットタスクを評価することで、オフ・ザ・シェル ViT 特徴の転移を実証。

実験結果

リサーチクエスチョン

  • RQ1Vision Transformer は CNNs と比較して深刻な遮蔽やパッチレベルの摂動下でも頑健さを維持するか?
  • RQ2ViTs は質感寄りか形状寄りかバイアスを持つのか、形状ベースの手掛かりを精度を落とさずにエンコードできるか?
  • RQ3ViTs はピクセルレベルの監視なしで形状情報を用いた自動セグメンテーションを達成できるか?
  • RQ4オフ・ザ・シェル ViT の特徴は多様な下流タスクと設定にわたって CNN の特徴より転移が良いか?
  • RQ5位置エンコーディングと受容野は ViT の頑健性と一般化においてどのような役割を果たすか?

主な発見

  • ViTs は heavy occlusion の下でも高い精度を維持し、例として DeiT は ImageNet で約 60% top-1 を達成できるが、80% のランダム遮蔽内容では CNN はほぼ 0% に崩壊する。
  • ViTs は CNN より質感バイアスが小さく、形状バイアスが強く、形状を強調する学習をすれば人間に近い形状認識を達成できる。
  • 形状重視の訓練と形状トークンにより、ViTs はピクセルレベル監視なしで自動的な前景セグメンテーションを実現できる。
  • オフ・ザ・シェル ViT の特徴は多様なデータセットへ転移しやすく、単一モデルからの強いアンサンブルを可能にし、転移タスクや少数ショット学習で CNN ベースラインを上回ることが多い。
  • ViTs はパッチ順序への置換不変性を示し、位置エンコーディングよりも動的でコンテンツ依存の受容野に依存して頑健性を得ている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。