[論文レビュー] Understanding The Robustness in Vision Transformers
この論文は自己注意が Vision Transformers (ViTs) の頑健性に寄与する方法を分析し、Fully Attentional Networks (FANs) をアテンショナルチャネル処理と共に提案して、ImageNet-C および下流タスクで頑健性を大幅に向上させ、最先端の結果を達成しています。
Recent studies show that Vision Transformers(ViTs) exhibit strong robustness against various corruptions. Although this property is partly attributed to the self-attention mechanism, there is still a lack of systematic understanding. In this paper, we examine the role of self-attention in learning robust representations. Our study is motivated by the intriguing properties of the emerging visual grouping in Vision Transformers, which indicates that self-attention may promote robustness through improved mid-level representations. We further propose a family of fully attentional networks (FANs) that strengthen this capability by incorporating an attentional channel processing design. We validate the design comprehensively on various hierarchical backbones. Our model achieves a state-of-the-art 87.1% accuracy and 35.8% mCE on ImageNet-1k and ImageNet-C with 76.8M parameters. We also demonstrate state-of-the-art accuracy and robustness in two downstream tasks: semantic segmentation and object detection. Code is available at: https://github.com/NVlabs/FAN.
研究の動機と目的
- ViTs の頑健な表現を学習するうえでの自己注意の役割を調査する。
- 視覚的グルーピングや中間レベル表現が頑健性とどのように関連するかを理解する。
- attentional channel processing を備えた完全注意バックボーン(FAN)を提案し、頑健性を高める。
提案手法
- 情報ボトルネック(IB)の観点から自己注意を解釈し、トークン表現のクラスタリング/グルーピングと結びつける。
- 自己注意パイプラインにチャネル注意(CA)を追加し、ポスト-MLP射影を削除して完全注意設計を形成する FAN ブロックを導入する。
- 効率のためのトークンプロトタイプとシグモイド正規化を用いてチャネルを再重みづけする Efficient Channel Self-attention (ECA) を開発する。
- ImageNet-1K および頑健性ベンチマーク(ImageNet-C, Cityscapes-C, COCO-C)において、バックボーンファミリーと深さを横断する FAN 変種(FAN-T/S/B/L)の比較。
- トレーニングテクニック、注意機構、ダウンサンプリングの頑健性への影響を分離するアブレーションを実施する。
実験結果
リサーチクエスチョン
- RQ1ViTs における自己注意は、中間レベル表現とグルーピングの改善を通じて頑健性に寄与するか?
- RQ2アテンショナルチャネル処理を備えた完全なアテンショナル設計は、費用が過度にならずに頑健性をさらに高めることができるか?
- RQ3FAN は、CNN および他の ViTs と跨るタスクで、クリーン精度と破損頑健性の点でどう比較されるか?
- RQ4効率的なチャネル注意と異なるアーキテクチャ変種が頑健性の向上に与える影響は何か?
- RQ5頑健性の向上は、セマンティックセグメンテーション(Cityscapes-C)や物体検出(COCO-C)などの下流タスクへ転移するか?
主な発見
- FANs は、サイズ(Tiny から Large)を問わずクリーン精度と破損頑健性の双方を向上させ、ImageNet-C における保持率と mCE の観点でベースラインを上回る。
- FAN-S, FAN-B, and FAN-L は高い頑健性を達成し、例として FAN-S-ViT: retention 76, mCE 51.4%; FAN-B-ViT: retention 78, mCE 47.7%(様々な構成)。
- Efficient Channel Attention (ECA) および channel self-attention (CSA) は SE と同程度のメモリで最良の頑健性をもたらし、CSA はテスト(IN-C、Retention、mCE)で最も強い頑健性を示す。
- FAN ブロックは ViT および Swin バックボーンの頑健性を向上させ、FAN-Hybrid および FAN-SWIN 変種は非-FAN 対応と比べて顕著な頑健性向上を示す。
- 下流タスク全般において、FAN-Hybrid は semantic segmentation(Cityscapes-C)および object detection(COCO-C)で競争力のある頑健性を達成。
- SOTA の CNNs および Transformers と比較して、FAN モデルは破損時に優れた頑健性を示しつつ、クリーン精度も競争力を維持。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。