Skip to main content
QUICK REVIEW

[論文レビュー] Global Context Vision Transformers

Ali Hatamizadeh, Hongxu Yin|arXiv (Cornell University)|Jun 20, 2022
Advanced Neural Network Applications被引用数 34
ひとこと要約

GC ViT は階層型ビジョン・トランスフォーマーにおいて、グローバルコンテキスト自己注意を共有グローバルクエリトークンで実現し、事前学習なしで ImageNet-1K で最先端の結果を達成するとともに、COCO および ADE20K の下流タスクで強力な性能を示します。

ABSTRACT

We propose global context vision transformer (GC ViT), a novel architecture that enhances parameter and compute utilization for computer vision. Our method leverages global context self-attention modules, joint with standard local self-attention, to effectively and efficiently model both long and short-range spatial interactions, without the need for expensive operations such as computing attention masks or shifting local windows. In addition, we address the lack of the inductive bias in ViTs, and propose to leverage a modified fused inverted residual blocks in our architecture. Our proposed GC ViT achieves state-of-the-art results across image classification, object detection and semantic segmentation tasks. On ImageNet-1K dataset for classification, the variants of GC ViT with 51M, 90M and 201M parameters achieve 84.3%, 85.0% and 85.7% Top-1 accuracy, respectively, at 224 image resolution and without any pre-training, hence surpassing comparably-sized prior art such as CNN-based ConvNeXt and ViT-based MaxViT and Swin Transformer by a large margin. Pre-trained GC ViT backbones in downstream tasks of object detection, instance segmentation, and semantic segmentation using MS COCO and ADE20K datasets outperform prior work consistently. Specifically, GC ViT with a 4-scale DINO detection head achieves a box AP of 58.3 on MS COCO dataset.

研究の動機と目的

  • ビジョントランスフォーマーにおいて、短距離および長距距の空間情報を効率的に捉える必要性を動機づける。
  • 高価なマスクやシフトを用いず、局所自己注意とグローバル自己注意を組み合わせた階層型 ViT を提案する。
  • 畳み込み型のダウンサンプリングモジュールを導入し、帰納的バイアスを注入し、チャネル間依存性をモデル化する。
  • グローバル注意ブロック全体で共有されるグローバルトークンを生成するグローバルクエリ生成器を設計する。
  • 分類における最先端の性能と、検出・分割の下流タスクで競争力のある性能を示す。

提案手法

  • 空間解像度を半分に、埋め込み次元を倍増させる段階を持つ階層型 GC ViT アーキテクチャを提案する。
  • 局所自己注意(窓内)とグローバル自己注意(事前計算済みのグローバルクエリトークンを介して)の交互ブロックを用いる。
  • 各段階で画像全体からグローバル特徴を抽出し、局所のキー/値との相互作用のために再形状するグローバルクエリ生成器を導入する。
  • SE と GELU を用いた修正済みの融合 MBConv ダウンサンプリングブロックを採用することで、畳み込みの帰納的バイアスとチャネル間モデリングを提供する。
  • 情報を保ちながら解像度を低下させるため、ストライド畳み込みと最大プーリング段を備えたダウンサンプラーを提供する。
  • GC ViT が Swin Transformer と同等のコストで動作しつつグローバルコンテキストモデリングを可能にすることを示すため、複雑さを分析する。

実験結果

リサーチクエスチョン

  • RQ1高価なマスキングやシフトを用いずに、共有グローバルクエリトークンを用いたグローバルコンテキスト自己注意は、ViT における長距離相互作用のモデリングを改善できるか。
  • RQ2CNNに触発されたダウンサンプリングとグローバルクエリ生成器の追加は、分類・検出・分割の各タスクで実質的な帰納的バイアスと性能向上をもたらすか。
  • RQ3GC ViT を画像分類と下流タスクに拡張する際のパラメータ数、FLOPs、精度のトレードオフは何か。

主な発見

  • 51M、90M、201M パラメータを持つ GC ViT 変種は、事前学習なしで ImageNet-1K で Top-1 精度 84.3%、85.0%、85.7% を達成。
  • GC ViT-T、-S、-B、および -L バックボーンは、Scratch から訓練した場合、ImageNet-1K で競争力のあるまたは最先端に近い結果を示す。
  • MS COCO では、事前訓練済み ImageNet バックボーンと Cascade Mask R-CNN ヘッドを組み合わせた GC ViT は 4 スケール検出ヘッドで 52.9 AP (box) および 45.8 AP (mask) を達成; GC ViT-L は ImageNet-21K + 4-scale DINO ヘッドで 58.3% box AP に達する。
  • ADE20K では、GC ViT バックボーンは UPerNet ヘッドと単一スケール推論を用いて 49.2 mIoU(GC ViT-B)を達成。
  • アブレーションにより、窓のシフト削除またはダウンサンプリングを除去すると性能が低下し、CNN風のステムとグローバル自己注意を組み込むと、分類・検出・分割の各分野で大幅な向上をもたらすことが示された。
  • ImageNet-21K での事前学習後、微調整を行うと GC ViT-L は top-1 86.6% を達成し、ImageNet-1K へ転移する際に Swin-L および ConvNeXt-L と競合する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。