[論文レビュー] On the Connection between Local Attention and Dynamic Depth-wise Convolution
論文は局所注意をチャネルごとに局所的に結合されたレイヤーとして扱い、動的ウェイトを用いた深さ方向の畳み込みとの関係と、その動的変種を実証的アブレーションと視覚タスク横断の比較で支持している。
Vision Transformer (ViT) attains state-of-the-art performance in visual recognition, and the variant, Local Vision Transformer, makes further improvements. The major component in Local Vision Transformer, local attention, performs the attention separately over small local windows. We rephrase local attention as a channel-wise locally-connected layer and analyze it from two network regularization manners, sparse connectivity and weight sharing, as well as weight computation. Sparse connectivity: there is no connection across channels, and each position is connected to the positions within a small local window. Weight sharing: the connection weights for one position are shared across channels or within each group of channels. Dynamic weight: the connection weights are dynamically predicted according to each image instance. We point out that local attention resembles depth-wise convolution and its dynamic version in sparse connectivity. The main difference lies in weight sharing - depth-wise convolution shares connection weights (kernel weights) across spatial positions. We empirically observe that the models based on depth-wise convolution and the dynamic variant with lower computation complexity perform on-par with or sometimes slightly better than Swin Transformer, an instance of Local Vision Transformer, for ImageNet classification, COCO object detection and ADE semantic segmentation. These observations suggest that Local Vision Transformer takes advantage of two regularization forms and dynamic weight to increase the network capacity. Code is available at https://github.com/Atten4Vis/DemystifyLocalViT.
研究の動機と目的
- ネットワーク正則化の観点(疎結合性と重み共有)および動的ウェイト計算による局所注意の理解を動機づける。
- 局所注意を動的ウェイトを伴うチャネルごとに局所的に結合されたレイヤーとして再定式化する。
- 局所注意と(動的)深さ方向の畳み込みの理論的・実証的な関係を調査する。
- ImageNet・COCO・ADE20Kにおいて、DWNetを用いた深さ方向の畳み込みベースのネットワークと局所注意ベースのSwin Transformerを比較評価する。
- 効率と性能の向上のためのウェイト共有と動的ウェイTPメカニズムについて実務的な洞察を提供する。
提案手法
- 局所注意を動的ウェイトを持つチャネルごとの空間的に局所結合されたレイヤーとして再表現する。
- 局所注意と深さ方向の畳み込みの間で、疎結合性、ウェイト共有パターン、および動的ウェイト計算を比較する。
- 同一アーキテクチャとウィンドウ設定の下で、Swin Transformerの局所注意を深さ方向の畳み込みに置換してDWNetを提案する。
- グローバルプールベースまたは中心位置ベースのウェイト予測を用いた、同質および不均質な動的深さ方向畳み込みの導入。
- ウェイト共有、動的ウェイト、ウィンドウサンプリング戦略の影響を評価するアブレーション研究を実施する。
- Swin Transformer風の学習プロトコルの下でImageNet、COCO、ADE20Kをベンチマークする。
実験結果
リサーチクエスチョン
- RQ1局所注意は、接続性、ウェイト共有、および動的ウェイト計算の観点で深さ方向の畳み込みとどのように関連するか?
- RQ2動的深さ方向の畳み込み変種(DWNet)は、ImageNet分類、COCO物体検出、ADEセマンティックセグメンテーションにおいて局所注意と競合する性能を達成するか?
- RQ3ウェイト共有と動的ウェイト予測は、局所注意と深さ方向の畳み込みの有効性にどのような役割を果たすか?
- RQ4DWNetのような深さ方向の畳み込みベースのアーキテクチャは、同等のトレーニング設定の下でSwin Transformerに匹敵するか、あるいはそれを超えるか?
主な発見
- 局所注意はチャネルごとに動的ウェイトを共有する局所結合レイヤーであり、チャネル間でウェイトを共有し、インスタンスごとのウェイト予測によって結合される。
- 深さ方向の畳み込みは空間的位置間でウェイトを共有し、チャネルおよび/または位置間のウェイト共有を利用することにより恩恵を受け、動的変種は線形投影や中心ベースの予測を用いる。
- DWNetとその動的変種は、ImageNet、COCO、ADEセマンティックセグメンテーションでSwin Transformerと同等かやや高い性能を達成し、いくつかの設定で計算コストを抑える。
- チャネル間でのウェイト共有は局所注意のパラメータ数を削減するのに役立ち、位置間の共有は深さ方向の畳み込みを助けパラメータを削減し、翻訳等価の表現を可能にする。
- 動的ウェイト機構は局所注意と深さ方向の畳み込みの性能を向上させ、特定の設定では線形投影ベースの動的ウェイトが注意ベースの方案より好まれることが多い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。