[論文レビュー] BOAT: Bilateral Local Attention Vision Transformer
BOATは、画像空間の局所注意と特徴空間の局所注意をバランスのとれた階層クラスタリングを用いて組み合わせる双方向局所注意機構を導入し、SwinおよびCSWinのバックボーンよりも複数のビジョンタスクで性能を向上させます。BOAT-SwinとBOAT-CSWinの両方を一貫した効果で拡張します。
Vision Transformers achieved outstanding performance in many computer vision tasks. Early Vision Transformers such as ViT and DeiT adopt global self-attention, which is computationally expensive when the number of patches is large. To improve efficiency, recent Vision Transformers adopt local self-attention mechanisms, where self-attention is computed within local windows. Despite the fact that window-based local self-attention significantly boosts efficiency, it fails to capture the relationships between distant but similar patches in the image plane. To overcome this limitation of image-space local attention, in this paper, we further exploit the locality of patches in the feature space. We group the patches into multiple clusters using their features, and self-attention is computed within every cluster. Such feature-space local attention effectively captures the connections between patches across different local windows but still relevant. We propose a Bilateral lOcal Attention vision Transformer (BOAT), which integrates feature-space local attention with image-space local attention. We further integrate BOAT with both Swin and CSWin models, and extensive experiments on several benchmark datasets demonstrate that our BOAT-CSWin model clearly and consistently outperforms existing state-of-the-art CNN models and vision Transformers.
研究の動機と目的
- Vision Transformerの効率と精度を、画像空間だけでなく特徴空間にも長距離関連を捉えることで向上させることを動機づける。
- Bilateral Local Attention (BLA)ブロックを提案し、画像空間局所注意(ISLA)と特徴空間局所注意(FSLA)を融合する。
- 効率的なFSLA計算のために、等サイズの特徴空間クラスタを形成するためのバランスのとれた階層クラスタリングを導入する。
- 最先端の局所注意トランスフォーマーと比較して、画像分類、セマンティックセグメンテーション、物体検出のベンチマークで改善を実証する。
提案手法
- Bilateral Local Attention (BLA)ブロックは、画像空間局所注意(ISLA)モジュール、特徴空間局所注意(FSLA)モジュール、LN層、および残差接続を持つMLPから構成される。
- FSLAは、複数のレベルを持つバランスのとれた階層クラスタリングを用いて内容に基づいてトークンをグループ化し、等サイズのクラスターを形成してクラスター内での効率的な並列注意を可能にする。
- 最終レベルで受容野を拡大するために、オーバーラップするバランスのとれた階層クラスタリングを導入する。
- FSLAに局所的に強化された位置エンコーディングを適用して、特徴ベースの注意内の空間情報を保持する。
実験結果
リサーチクエスチョン
- RQ1特徴空間局所注意は、画像空間局所注意を補完して、離れたが内容に関連するパッチの関係を捉えられるか。
- RQ2バランスのとれた階層クラスタリングは、並列性や性能を損なうことなく、効率的で効果的なFSLAを実現できるか。
- RQ3BOATの派生モデルは、分類、セグメンテーション、検出タスクでSwinおよびCSWinのベースラインを一貫して上回るか。
主な発見
| Model | Image size | #params (M) | FLOPs (G) | Top-1 / mIoU / mAP |
|---|---|---|---|---|
| BOAT-Swin-T (ours) | 224 | 31 | 5.2 | 82.3 |
| BOAT-CSWin-T (ours) | 224 | 27 | 5.1 | 83.7 |
| BOAT-Swin-S (ours) | 224 | 56 | 10.1 | 83.6 |
| BOAT-CSWin-S (ours) | 224 | 41 | 8.0 | 84.1 |
| BOAT-Swin-B (ours) | 224 | 98 | 17.8 | 83.8 |
| BOAT-CSWin-B (ours) | 224 | 90 | 17.5 | 84.7 |
- BOAT-Swin-TおよびBOAT-CSWin-Tは、パラメータおよびFLOPのオーバーヘッドを抑えつつ精度を向上させ、ImageNet-1Kで素のモデルを上回る。
- BOAT-Swin-SおよびBOAT-CSWin-Sは、Tiny/Small/Base設定の各段階でベースモデルよりTop-1精度を向上させる。
- BOAT-Swin-BおよびBOAT-CSWin-Bは、それぞれSwin-BおよびCSWin-Bと比較して一貫した精度向上を示す。
- アブレーションでは、FSLAはISLA単独よりも効果的である(Tiny varianteで82.3%対81.5%の比較、表3参照)、およびオーバーラップするバランスのとれた階層クラスタリングは非オーバーラッピング版より精度が高い(例:BOAT-CSWin-Tで83.7%対83.3%)。
- ADE20Kのセマンティックセグメンテーションでは、BOAT-Swin-T/SおよびBOAT-CSWin-T/Sが素の対向モデルより高いmIoUを達成;BOAT-Swin-B/CSWin-Bでも同様の利得が観察される。
- MS-COCOのMask R-CNNでの物体検出では、BOAT-Swin-T/SがSwin-T/Sに対してmAP BoxおよびmAP Maskで同等の予算内で上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。