[論文レビュー] FLatten Transformer: Vision Transformer using Focused Linear Attention
視覚トランスフォーマーにおける Softmax の代わりに Focused Linear Attention を導入し、フォーカスされたマッピングと特徴の多様性を回復する深さ方向畳み込みにより線形計算量を達成する。分類・セグメンテーション・検出のベンチマークで一貫した改善を示す。
The quadratic computation complexity of self-attention has been a persistent challenge when applying Transformer models to vision tasks. Linear attention, on the other hand, offers a much more efficient alternative with its linear complexity by approximating the Softmax operation through carefully designed mapping functions. However, current linear attention approaches either suffer from significant performance degradation or introduce additional computation overhead from the mapping functions. In this paper, we propose a novel Focused Linear Attention module to achieve both high efficiency and expressiveness. Specifically, we first analyze the factors contributing to the performance degradation of linear attention from two perspectives: the focus ability and feature diversity. To overcome these limitations, we introduce a simple yet effective mapping function and an efficient rank restoration module to enhance the expressiveness of self-attention while maintaining low computation complexity. Extensive experiments show that our linear attention module is applicable to a variety of advanced vision Transformers, and achieves consistently improved performances on multiple benchmarks. Code is available at https://github.com/LeapLabTHU/FLatten-Transformer.
研究の動機と目的
- 視覚トランスフォーマーにおける自己注意の高い計算コストに対処する。
- 線形注意とSoftmax注意の性能ギャップを埋める。
- フォーカスと特徴多様性を向上させる機構で線形注意を強化する。
- 複数のVision Transformerアーキテクチャに適用可能なプラグインモジュールを提供する。
提案手法
- 簡易フォーカスマッピングとDepthwise Convolution (DWC) によるランク復元を組み合わせた Focused Linear Attention モジュールを提案する。
- attention分布を鋭くするためにクエリ/キーの方向を調整するマッピング関数 fp で Softmax を近似する。
- 特徴の rank と多様性を回復するためにVに追加のDWCを適用する。
- 注意を O = Sim(Q,K)V = fp(Q) fp(K)^T V + DWC(V) として定式化する。
- 計算を Q(K^T V) に再配置することで線形時間計算量を実証する((QK^T)V ではなく)。
- DeiT、PVT、PVT-v2、Swin、CSWin のバックボーンにまたがるプラグインとして ImageNet、ADE20K、COCO で評価する。
実験結果
リサーチクエスチョン
- RQ1Focused Linear Attention は視覚トランスフォーマーにおいて、線形計算コストで Softmax 注意と同等またはそれ以上の精度を達成できるか?
- RQ2単純なマッピングベースのフォーカス調整と Depthwise Convolution ベースのランク復元は、線形注意の表現力と特徴多様性を向上させるか?
- RQ3Focused Linear Attention モジュールは主要な Vision Transformer アーキテクチャ全般でプラグインとして広く適合するか?
- RQ4Baseline 注意を FLatten 注意に置換した場合、ImageNet-1K、ADE20K、COCO での実証的なメリットは何か?
主な発見
| モデル | FLOPs | パラメータ数 | 精度 |
|---|---|---|---|
| Hydra Attn (DeiT-Tiny) | 1.1G | 5.7M | 68.3 |
| Efficient Attn (DeiT-Tiny) | 1.1G | 5.7M | 70.2 |
| Linear Angular Attn (DeiT-Tiny) | 1.1G | 5.7M | 70.8 |
| Enhanced Linear Attn (DeiT-Tiny) | 1.1G | 5.8M | 72.9 |
| Ours (DeiT-Tiny) | 1.1G | 6.1M | 74.1 |
| Hydra Attn (SwIn-Tiny) | 4.5G | 29M | 80.7 |
| Efficient Attn (SwIn-Tiny) | 4.5G | 29M | 81.0 |
| Linear Angular Attn (SwIn-Tiny) | 4.5G | 29M | 79.4 |
| Enhanced Linear Attn (SwIn-Tiny) | 4.5G | 29M | 81.8 |
| Ours (SwIn-Tiny) | 4.5G | 29M | 82.1 |
- Focused Linear Attention は素の線形注意を上回り、いくつかのモデルで Softmax ベースラインを超えることができる。
- fp の鋭化と DWC の導入により注意のランクと特徴多様性を回復し、精度向上をもたらす(例:DeiT-T と Swin-T の比較)。
- DeiT-Tiny、Swin-Tiny など他のバックボーンで、FLatten は FLOPs とパラメータが同等でも Top-1 精度が高い。
- 推論レイテンシの分析では、CPU/GPU ハードウェアでベースラインと比較して最大 2.1 倍高速な実行時間と競争力のある精度を示す。
- ベンチマーク全体(ImageNet-1K、ADE20K、COCO)で、同等の計算予算の下、FLatten は一貫してベースラインを上回るか同等にする。
- 既存の4つの線形注意設計と比較して、FLatten はより高い精度を達成(例:DeiT-Tiny: 74.1 対 72.9–70.8、Swin-Tiny: 82.1 対 80.7–81.8)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。