Skip to main content
QUICK REVIEW

[論文レビュー] Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight

Qi Han, Zejia Fan|arXiv (Cornell University)|Jun 8, 2021
Advanced Neural Network Applications参考文献 75被引用数 24
ひとこと要約

この論文は、局所的自己注意機構をスパース接続性、重み共有、動的重み計算の観点から分析するため、局所的自己注意機構をチャネルごとの局所接続層に再解釈する。スパース接続性と重み共有、および動的重み計算を用いるモデルは、ImageNet、COCO、ADEのベンチマークでSwine Transformerと同等またはわずかに優れた性能を達成しており、正則化と動的重みがネットワーク容量を顕著に向上させることを示している。

ABSTRACT

Vision Transformer (ViT) attains state-of-the-art performance in visual recognition, and the variant, Local Vision Transformer, makes further improvements. The major component in Local Vision Transformer, local attention, performs the attention separately over small local windows. We rephrase local attention as a channel-wise locally-connected layer and analyze it from two network regularization manners, sparse connectivity and weight sharing, as well as weight computation. Sparse connectivity: there is no connection across channels, and each position is connected to the positions within a small local window. Weight sharing: the connection weights for one position are shared across channels or within each group of channels. Dynamic weight: the connection weights are dynamically predicted according to each image instance. We point out that local attention resembles depth-wise convolution and its dynamic version in sparse connectivity. The main difference lies in weight sharing - depth-wise convolution shares connection weights (kernel weights) across spatial positions. We empirically observe that the models based on depth-wise convolution and the dynamic variant with lower computation complexity perform on-par with or sometimes slightly better than Swin Transformer, an instance of Local Vision Transformer, for ImageNet classification, COCO object detection and ADE semantic segmentation. These observations suggest that Local Vision Transformer takes advantage of two regularization forms and dynamic weight to increase the network capacity.

研究の動機と目的

  • 局所的ビジョントランスフォーマーの成功の背後にある誘導的バイアスおよび正則化メカニズムを理解すること。
  • 局所的自己注意機構におけるスパース接続性と重み共有が、モデル容量と一般化性能にどのように寄与するかを分析すること。
  • 計算複雑性を増加させずに性能を向上させるために、動的重み計算が果たす役割を調査すること。
  • 深層畳み込みと局所的自己注意機構を比較し、視覚タスクにおける性能の同等性を評価すること。
  • 正則化と動的重みが局所的ビジョントランスフォーマーの優れた性能の鍵であることを実証的に検証すること。

提案手法

  • ネットワーク正則化の観点からの分析を可能にするために、局所的自己注意機構をチャネルごとの局所接続層に再定式化する。
  • 各位置が局所ウィンドウ内の空間的近傍位置にのみ接続され、チャネル間の接続が存在しないスパース接続性の観点から局所的自己注意機構を分析する。
  • チャネル間またはチャネルグループ内で接続重みを共有することで重み共有を導入し、深層畳み込みを模倣する。
  • 接続重みを画像インスタンスごとに予測することで、動的重みメカニズムを提案し、適応的な特徴モデリングを可能にする。
  • Swine Transformerとの比較のためのベースラインとして、深層畳み込みおよび動的重みバリエーションを用いたモデルを実装する。
  • ImageNet画像分類、COCO物体検出、ADEセマンティックセグメンテーションの評価を通じて、性能と効率を測定する。

実験結果

リサーチクエスチョン

  • RQ1局所的自己注意機構におけるスパース接続性と重み共有は、局所的ビジョントランスフォーマーの表現能力にどのように寄与するか?
  • RQ2固定重みや共有重みと比較して、動的重み計算は局所的自己注意機構の性能向上にどの程度寄与するか?
  • RQ3深層畳み込みおよび動的重みバリエーションに基づくモデルは、精度と効率の観点からSwine Transformerと比較してどうなるか?
  • RQ4正則化メカニズム(スパース接続性と重み共有)と動的重みの相対的な貢献度は、優れた性能を達成するためにどの程度重要か?
  • RQ5局所的自己注意機構と同等の誘導的バイアスを持つより単純なアーキテクチャは、視覚ベンチマークでSwine Transformerを上回るか、同等の性能を達成できるか?

主な発見

  • 深層畳み込みおよび動的重みバリエーションに基づくモデルは、ImageNet画像分類においてSwine Transformerと同等の性能を達成した。
  • 計算複雑性が低い動的重みバリエーションは、COCO物体検出およびADEセマンティックセグメンテーションにおいて、Swine Transformerを上回るか同等の性能を示した。
  • 局所的自己注意機構におけるスパース接続性と重み共有は、モデルの一般化性能と容量を向上させる重要な正則化メカニズムである。
  • 動的重みメカニズムにより、画像インスタンスごとに適応的な注意重みが可能となり、モデルの複雑性を増加させずに特徴表現が向上した。
  • 実証的結果から、2つの正則化形式と動的重み計算の組み合わせが、局所的ビジョントランスフォーマーの優れた性能の要因であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。