[論文レビュー] Stand-Alone Self-Attention in Vision Models
この論文は自己注意が視覚モデルのための独立したプリミティブとして機能し、畳み込みを置換して完全に注意機構のみのネットワークを作成し、ImageNetで畳み込みベースラインをパラメータ数とFLOPSを削減して上回り、COCOではリタイアメントでリテーナネットと同等の性能を、より少ないリソースで達成できることを示している。
Convolutions are a fundamental building block of modern computer vision systems. Recent approaches have argued for going beyond convolutions in order to capture long-range dependencies. These efforts focus on augmenting convolutional models with content-based interactions, such as self-attention and non-local means, to achieve gains on a number of vision tasks. The natural question that arises is whether attention can be a stand-alone primitive for vision models instead of serving as just an augmentation on top of convolutions. In developing and testing a pure self-attention vision model, we verify that self-attention can indeed be an effective stand-alone layer. A simple procedure of replacing all instances of spatial convolutions with a form of self-attention applied to ResNet model produces a fully self-attentional model that outperforms the baseline on ImageNet classification with 12% fewer FLOPS and 29% fewer parameters. On COCO object detection, a pure self-attention model matches the mAP of a baseline RetinaNet while having 39% fewer FLOPS and 34% fewer parameters. Detailed ablation studies demonstrate that self-attention is especially impactful when used in later layers. These results establish that stand-alone self-attention is an important addition to the vision practitioner's toolbox.
研究の動機と目的
- スタンドアロン自己注意によるコンテンツ依存の相互作用が視覚モデルの空間畳み込みを置換できることを示す。
- 畳み込みを局所自己注意へ置換して完全に注意的な視覚アーキテクチャを構築する。
- スタンドアロンの注意がImageNetで畳み込みベースラインより少ないパラメータとFLOPSで上回ることを示す。
- アブレーションを通じてネットワークのどこでスタンドアロン注意が最も利益を生むかを特徴付ける。
- 視覚トランスフォーマーの幹層と相対的位置エンコーディングに関する実用的設計上の考慮事項を特定する。
提案手法
- 各ピクセルについて k×k のメモリブロックを見ていく局所自己注意層を開発する。
- クエリ、キー、バリューの線形射影(W_Q, W_K, W_V)を用いた多頭自己注意を使用する。
- 2D 相対位置埋め込みを組み込み、平行移動等価性を可能にし表現力を向上させる。
- ResNet ボトルネックブロックのすべての空間畳み込みを提案する注意層で置換し、ダウンサンプリング構造を維持する。
- stem を畳み込みから注意ヒストに置換する実験、価値の空間的変換を伴う stem を含め、stem の性能を橋渡しする。
- ImageNet 分類(ResNet 系)と COCO 物体検出(RetinaNet)で評価し、空間的範囲、位置エンコーディング、および stem 設計のアブレーションを行う。
実験結果
リサーチクエスチョン
- RQ1スタンドアロンの局所自己注意は空間畳み込みを置換して完全に注意的な視覚モデルを形成できるか。
- RQ2完全に注意的な ResNet は畳み込みベースラインと比較して ImageNet と COCO で精度、FLOPS、パラメータ数の点でどうか。
- RQ3ネットワークのどこでスタンドアロン注意が最も有益か(stem vs 後半層)と、設計選択は性能にどう影響するか。
- RQ4空間的範囲(k)と位置エンコーディングのタイプが性能に与える影響は何か。
- RQ5stem の修正(空間的に配慮された値)は、平凡な注意系 stem と比較して注意ベースのネットワークを改善するか。
主な発見
| モデル | FLOPS (B) | Params (M) | Top-1 Acc (%) |
|---|---|---|---|
| Baseline (ResNet-26) | 4.7 | 13.7 | 74.5 |
| Conv-stem + Attention (ResNet-26) | 4.5 | 10.3 | 75.8 |
| Full Attention (ResNet-26) | 4.7 | 10.3 | 74.8 |
| Baseline (ResNet-38) | 6.5 | 19.6 | 76.2 |
| Conv-stem + Attention (ResNet-38) | 5.7 | 14.1 | 77.1 |
| Full Attention (ResNet-38) | 6.0 | 14.1 | 76.9 |
| Baseline (ResNet-50) | 8.2 | 25.6 | 76.9 |
| Conv-stem + Attention (ResNet-50) | 7.0 | 18.0 | 77.4 |
| Full Attention (ResNet-50) | 7.2 | 18.0 | 77.6 |
- 畳み込みを局所自己注意に置換する完全な注意モデルは、ImageNet の Top-1 精度をより高く達成し、FLOPSを12%、パラメータを29%削減するベースラインよりも上回る。
- COCO の検出では、完全な注意バックボーンは RetinaNet の mAP に匹敵し、FLOPSを39%、パラメータを34%削減している。
- アブレーションは、注意層を後半のネットワーク段に配置したときに大きな利得を示し、初期段だと畳み込みが低レベル特徴をよりよく捉え、注意がグローバル情報を統合する傾向を示唆する。
- 相対的な2D位置エンコーディングは、絶対的なエンコーディングや何もしない場合より性能を大幅に改善する(相対がテストされた選択肢の中で最良)。
- stem における空間的に配慮された値の変換は、平凡な stand-alone attention stem および値に畳み込みを用いた stem よりも優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。