[論文レビュー] Twins: Revisiting the Design of Spatial Attention in Vision Transformers
論文は二つのビジョン・トランスフォーマー・バックボーン、Twins-PCPVT と Twins-SVT を提案し、条件付き位置エンコーディングとグローバルにサブサンプルされた注意と局所的にグループ化された注意を組み合わせた簡潔で効果的な空間アテンション設計を導入。分類・分割・検出で強い成果を、計算効率を保ちながら達成します。
Very recently, a variety of vision transformer architectures for dense prediction tasks have been proposed and they show that the design of spatial attention is critical to their success in these tasks. In this work, we revisit the design of the spatial attention and demonstrate that a carefully-devised yet simple spatial attention mechanism performs favourably against the state-of-the-art schemes. As a result, we propose two vision transformer architectures, namely, Twins-PCPVT and Twins-SVT. Our proposed architectures are highly-efficient and easy to implement, only involving matrix multiplications that are highly optimized in modern deep learning frameworks. More importantly, the proposed architectures achieve excellent performance on a wide range of visual tasks, including image level classification as well as dense detection and segmentation. The simplicity and strong performance suggest that our proposed architectures may serve as stronger backbones for many vision tasks. Our code is released at https://github.com/Meituan-AutoML/Twins .
研究の動機と目的
- 視覚トランスフォーマーの空間アテンション設計を再検討・改善し、密な予測タスクへ適用する。
- 簡単で効率的なアテンション設計が、計算量を削減しつつ最先端のバックボーンに匹敵または上回ることを実証する。
- 画像レベルとピクセルレベルの視覚タスクの両方で、Two つのアーキテクチャ(Twins-PCPVT と Twins-SVT)が良好に性能を発揮することを提供する。
- 位置エンコーディングとアテンション設計の選択が性能とデプロイ効率に決定的な影響を与えることを示す。
提案手法
- 各ステージの最初のエンコーダブロックの後に第一絶対位置エンコーディングを条件付き位置エンコーディング(CPE)に置換し、PEG(位置エンコーディング生成器)を使用してTwins-PCPVTを導入する。
- Twins-SVT は Spatially Separable Self-Attention (SSSA) を提案し、局所的にグループ化した自己注意(LSA)とグローバルにサブサンプルされた注意(GSA)を組み合わせてローカル情報とグローバル情報のバランスを取る。
- SSSA を標準的なトランスフォーマーと同様の LayerNorm、注意/FFN ブロック、残差接続の連続として定式化する。
- 可変入力サイズに対応し翻訳不変性を改善するために PEG/CPE を位置エンコーディングに使用する。
- ImageNet-1K、ADE20K、COCO with RetinaNet and Mask R-CNN で分類、分割、検出性能を評価する。
- Swin に比べて窓移動操作を回避し、効率的な行列乗算を可能にするデプロイメント上の利点を強調する。
実験結果
リサーチクエスチョン
- RQ1密 prediction タスクに対して、単純な空間アテンション設計は最先端のバックボーン(例:Swin、PVT)に対抗・上回ることができるのか。
- RQ2条件付き位置エンコーディングとグローバルにサブサンプルされた注意戦略は、FLOPs が同等でも性能を向上させるのか。
- RQ3局所とグローバルの注意を交互に組み合わせる(SSSA)設計は、複雑なシフト窓機構の代替として効果的でデプロイに優しいのか。
- RQ4提案された Twins バックボーンは、画像分類、セマンティック/インスタンス分割、物体検出データセットでどのように性能を発揮するのか。
主な発見
- Twins-PCPVT-S は PVT-small を 1.4% 上回り、FLOPs を 18% 減らして Swin-T に匹敵。
- Twins-SVT-S は Swin-T を約 35% の FLOPs で上回る。
- Twins-SVT-S は Semantic FPN/ADE20K セットアップで Swin-T より mIoU が 1.7% 向上;Twins-SVT-L は Swin-B を 0.7% の mIoU 超え。
- ADE20K で Twins-PCPVT-S は PVT-Small より +4.5% の mIoU を示し、ResNet-50 を 7.6% の mIoU で上回る;Twins-PCPVT-B/L も同様に PVT 相当を凌駕。
- Twins-SVT-S および Twins-SVT-B は、COCO の物体検出とインスタンス分割で 1x および 3x スケジュールにおいて Swin 系と同等またはそれ以上の性能を達成。
- Swin-T の相対 PE を CPVT に置換しても検出性能は改善せず、利得は Twins-SVT 設計に起因するものであり、 positional encoding のみではないことを示唆。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。