Skip to main content
QUICK REVIEW

[論文レビュー] Focal Self-attention for Local-Global Interactions in Vision Transformers

Jianwei Yang, Chunyuan Li|arXiv (Cornell University)|Jul 1, 2021
Visual Attention and Saliency Detection参考文献 87被引用数 267
ひとこと要約

本論文は、Vision Transformers 内で fine-grained local と coarse-grained global の相互作用を組み合わせる focal self-attention を導入し、複数のモデルサイズにわたって ImageNet、COCO、ADE20K で最先端の結果を達成します。

ABSTRACT

Recently, Vision Transformer and its variants have shown great promise on various computer vision tasks. The ability of capturing short- and long-range visual dependencies through self-attention is arguably the main source for the success. But it also brings challenges due to quadratic computational overhead, especially for the high-resolution vision tasks (e.g., object detection). In this paper, we present focal self-attention, a new mechanism that incorporates both fine-grained local and coarse-grained global interactions. Using this new mechanism, each token attends the closest surrounding tokens at fine granularity but the tokens far away at coarse granularity, and thus can capture both short- and long-range visual dependencies efficiently and effectively. With focal self-attention, we propose a new variant of Vision Transformer models, called Focal Transformer, which achieves superior performance over the state-of-the-art vision Transformers on a range of public image classification and object detection benchmarks. In particular, our Focal Transformer models with a moderate size of 51.1M and a larger size of 89.8M achieve 83.5 and 83.8 Top-1 accuracy, respectively, on ImageNet classification at 224x224 resolution. Using Focal Transformers as the backbones, we obtain consistent and substantial improvements over the current state-of-the-art Swin Transformers for 6 different object detection methods trained with standard 1x and 3x schedules. Our largest Focal Transformer yields 58.7/58.9 box mAPs and 50.9/51.3 mask mAPs on COCO mini-val/test-dev, and 55.4 mIoU on ADE20K for semantic segmentation, creating new SoTA on three of the most challenging computer vision tasks.

研究の動機と目的

  • 高解像度ビジョンタスク(検出やセグメンテーション)のための full self-attention の二次計のコストを動機付け、対処する。
  • local な細粒度と global な粗粒度の相互作用を効率的にモデル化する focal self-attention を提案する。
  • 高精度な dense predictions のために multi-scale アーキテクチャを備えた Focal Transformer のバリアントを開発する。
  • 分類、検出、セグメンテーションタスクで SoTA トランスフォーマーに対する改善を実証的に検証する。

提案手法

  • 近くのトークンには細粒度で、遠くのトークンには粗粒度で注意を払う focal self-attention を定義する。
  • 特徴マップをウィンドウに分割し、複数の focal レベルのためにサブウィンドウをプーリングして window-wise focal self-attention を実装する。
  • 線形射影で Queries, Keys, Values を計算し、相対位置バイアスを用いた多レベルのアテンションを適用する。
  • 高解像度入力を扱うために、パッチ埋め込みと stage-wise focal blocks を用いたマルチステージ・マルチスケールのアーキテクチャを採用する。
  • ImageNet-1K、COCO、ADE20K で Focal Transformer バリアント(Focal-Tiny, Focal-Small, Focal-Base)を訓練・評価し、Swin Transformer や他のベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1Focal self-attention は計算量を二次的に増やすことなく、Vision Transformers における局所的な相互作用とグローバルな相互作用の両方を捉えることができるのか?
  • RQ2マルチスケール、ウィンドウベースの focal メカニズムは、既存のアテンション戦略と比較して画像分類、物体検出、セマンティックセグメンテーションの性能を改善するのか?
  • RQ3Focal Transformer バリアントは、標準ベンチマーク全体で最先端モデルと比較してどのような性能を示すのか?

主な発見

  • Focal Transformers は、同程度のサイズと FLOPs の SoTA Vision Transformer ベースラインを ImageNet-1K 分類で上回る。
  • Focal-Small および Focal-Base は、同等の Swin および他の Transformer モデルより高い Top-1 精度を達成する。
  • COCO における物体検出とインスタンスセグメンテーションでは、Focal-Tiny/Small/Base が複数の検出器とスケジュールにおいて Swin Transformer より一貫した利得を提供する。
  • ADE20K のセマンティックセグメンテーションでは、Focal-Tiny/Small/Base が同程度のサイズの Swin Transformer を単一スケールおよびマルチスケール設定で上回る。
  • 提案されたアテンション機構は、全注意に比べて計算コストを抑えつつ、近距離の細粒度と遠距離の粗粒度の相互作用の両方を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。