[論文レビュー] On the Relationship between Self-Attention and Convolutional Layers
この論文は、相対的位置エンコーディングを用いたマルチヘッド自己注意が任意の畳み込み層を表現できることを証明し、経験的には初期層でアテンションヘッドがグリッド状・CNN様の局所パターンを学習することを示している。
Recent trends of incorporating attention mechanisms in vision have led researchers to reconsider the supremacy of convolutional layers as a primary building block. Beyond helping CNNs to handle long-range dependencies, Ramachandran et al. (2019) showed that attention can completely replace convolution and achieve state-of-the-art performance on vision tasks. This raises the question: do learned attention layers operate similarly to convolutional layers? This work provides evidence that attention layers can perform convolution and, indeed, they often learn to do so in practice. Specifically, we prove that a multi-head self-attention layer with sufficient number of heads is at least as expressive as any convolutional layer. Our numerical experiments then show that self-attention layers attend to pixel-grid patterns similarly to CNN layers, corroborating our analysis. Our code is publicly available.
研究の動機と目的
- 自己注意層が画像を畳み込み層と同様に処理するかという問いを動機づける。
- 自己注意が畳み込み層を再現できる理論的条件を提供する。
- アテンションのみのネットワークの初期層で、アテンションヘッドが局所的でグリッド状のパターンを学習することを経験的に検証する。
提案手法
- 相対位置エンコーディングを備えたマルチヘッド自己注意層が任意の畳み込み層を表現できることを構成的証明で示す(定理1)。
- 二次的な相対位置エンコーディングまたは学習された相対位置エンコーディングを用いると、注意ヘッドは各クエリピクセルの周囲にグリッド状のパターンに注意を向けることを示す。
- 自己注意を用いて畳み込みを再パラメータ化するための十分条件(補題1および補題2)を導出する。
- CIFAR-10で6層の自己注意モデルを用いてアテンションパターンを観察し、ResNet-18と精度を比較する実験を行う。
- 二次的および学習された相対位置エンコーディングの両方、内容ベースの注意を含むを分析し、局所性とグローバルな依存性を研究する。
実験結果
リサーチクエスチョン
- RQ1相対位置エンコーディングを備えたマルチヘッド自己注意は畳み込み層の機能的挙動を再現できるか?
- RQ2実践的には、画像データで訓練した場合、初期層でアテンションヘッドは局所的で畳み込みに似た受容野を学習するか?
- RQ3異なる位置エンコーディング方式(二次的 vs 学習された相対エンコーディング)が視覚トランスフォーマの局在性と内容ベースの注意にどう影響するか?
- RQ4標準的な画像分類タスクにおいて、アテンションのみのアーキテクチャと従来のCNNを使用した場合の経験的パフォーマンスと計算コストのトレードオフは何か?
主な発見
| モデル | 精度 | パラメータ数 | FLOPS数 |
|---|---|---|---|
| ResNet18 | 0.938 | 11.2M | 1.1B |
| SA quadratic emb. | 0.938 | 12.1M | 6.2B |
| SA learned emb. | 0.918 | 12.3M | 6.2B |
| SA learned emb. + content | 0.871 | 29.5M | 15B |
- 必要なヘッド数と相対位置エンコーディングを備えたマルチヘッド自己注意層は任意の畳み込み層を表現できる(カーネルサイズ K×K、出力チャンネル数は min(Dh, Dout))。
- 実際には初期のアテンション層はクエリピクセル周辺のグリッド状で局所的なパターンに注意を向けることを学習し、畳み込みの受容野に似ている。
- 二次的および学習された相対エンコーディングの両方が局在化した注意パターンを生み出し、後の層はより大きなパターンに注意し、深い層では内容ベースの注意を取り入れる。
- CIFAR-10では、類似のパラメータ数でResNet-18と競合する精度を達成するが、一部の構成は遅れをとる(例:内容注意を伴う学習済み埋め込み)。
- 初期層のアテンション確率は重複を避け、入力空間を多様な局所パターンでカバーする傾向があり、より深い層はよりグローバルで内容主導の注意を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。