QUICK REVIEW

[論文レビュー] LightViT: Towards Light-Weight Convolution-Free Vision Transformers

Tao Huang, Lang Huang|arXiv (Cornell University)|Jul 12, 2022

Advanced Neural Network Applications被引用数 42

ひとこと要約

LightViTは、畳込みを使用せず、自己注意におけるグローバルトークンベースの集約とFFNにおける二次元注意機構を備えた軽量なビジョントランスフォーマを導入し、ImageNet、COCO、その他で高い精度と効率を実現します。

ABSTRACT

Vision transformers (ViTs) are usually considered to be less light-weight than convolutional neural networks (CNNs) due to the lack of inductive bias. Recent works thus resort to convolutions as a plug-and-play module and embed them in various ViT counterparts. In this paper, we argue that the convolutional kernels perform information aggregation to connect all tokens; however, they would be actually unnecessary for light-weight ViTs if this explicit aggregation could function in a more homogeneous way. Inspired by this, we present LightViT as a new family of light-weight ViTs to achieve better accuracy-efficiency balance upon the pure transformer blocks without convolution. Concretely, we introduce a global yet efficient aggregation scheme into both self-attention and feed-forward network (FFN) of ViTs, where additional learnable tokens are introduced to capture global dependencies; and bi-dimensional channel and spatial attentions are imposed over token embeddings. Experiments show that our model achieves significant improvements on image classification, object detection, and semantic segmentation tasks. For example, our LightViT-T achieves 78.7% accuracy on ImageNet with only 0.7G FLOPs, outperforming PVTv2-B0 by 8.2% while 11% faster on GPU. Code is available at https://github.com/hunto/LightViT.

研究の動機と目的

情報の集約を再考することで、畳込みを用いない軽量ビジョンTransformersの動機づけと設計を行う。
自己注意内でグローバルトークンベースの集約を提案し、グローバル依存性を効率的に捕捉する。
FFNに二次元のチャネル-空間注意を導入し、チャネル数が小さい場合の特徴表現を強化する。
ImageNet、COCO検出およびセグメンテーションタスクで精度と効率のトレードオフの改善を実証する。
頑健で拡張性が高く効率的なLightViTバリアントの実用的な設計選択を提供する。

提案手法

局所窓自己注意を基盤とし、学習可能なグローバルトークンを導入してグローバル情報を集約する（グローバル集約）。
集約されたグローバルトークンをキー/値として使用し、局所トークンを豊富にするグローバルブロードキャストを実行する。
画像サイズに対して線形計算量のまま、計算コストのほとんどないグローバルトークン駆動の集約を追加する。
FFNにチャネル注意ブランチと空間注意ブランチからなる二次元注意モジュールを提案し、空間およびチャネルの依存関係をより効果的に活用する。
3段階の階層的で畳込みなしのViT設計を採用し、効率のために最初のstride-4段を削除し、ダウンサンプリングには残差パッチマージを用いる。
効率と精度のトレードオフを狙って、異なる段構成、オーバーラップパッチ埋め込み、OPEステムなどのアーキテクチャ変種を探索する。

実験結果

リサーチクエスチョン

RQ1畳込みなしのViTは、畳込みベースまたはハイブリッドな効率的ViTよりも効率と精度の利点を達成できるのか。
RQ2重い計算を伴うことなく、グローバル情報を局所窓注意にいかに効率的に組み込むことができるか。
RQ3FFNの二次元注意機構は、軽量ViTにおける小さなチャネル次元を補うことができるか。
RQ4軽量ViTのスループットと精度を改善する実用的なアーキテクチャ調整（段構成、パッチマージ、OPE）は何か。

主な発見

Model	Block type	Params (M)	FLOPs (G)	Throughput (image/s)	Top-1 (%)
RegNetY-800M	CNN	6.3	0.8	3321	76.3
PVTv2-B0	Hybrid	3.4	0.6	2324	70.5
SimViT-Micro	Hybrid	3.3	0.7	1004	71.1
MobileViT-XS	Hybrid	2.3	0.7	1581	74.8
LVT	Hybrid	5.5	0.9	1545	74.8
LightViT-T	Transformer	9.4	0.7	2578	78.7
RegNetY-1.6G	CNN	11.2	1.6	1845	78.0
MobileViT-S	Hybrid	5.6	1.1	1219	78.4
PVTv2-B1	Hybrid	13.1	2.1	1231	78.7
ResT-Small	Hybrid	13.7	1.9	1298	79.6
PVTv2-B2	Hybrid	25.4	4.0	695	82.0
DeiT-S	Transformer	22	4.6	961	79.8
Swin-T	Transformer	29	4.9	765	81.3
LightViT-B	Transformer	35.2	3.9	827	82.1

LightViT-TはImageNetでトップ-1精度78.7%、FLOPs0.7G、いくつかの効率的ViTを上回り、GPU上で著しく高速である。
LightViT-SはImageNetでトップ-1精度80.8%、FLOPs1.7G、精度と効率の点でいくつかのベースラインを上回る。
COCO物体検出では、LightViT-Sは1.0xスケジュールで40.0 APbと37.4 APmを達成し、高FLOPsのバックボーンに対して競争力のある性能を示す。
アブレーション研究は、局所窓注意にグローバル注意を追加すると精度が著しく向上（76.9%–78.0% 対 local-attn ベースライン）、一方で二次元FFN注意が追加の改善をもたらすことを示している。
最初のstride-4段を削除し3段階のFPNを使用すると、転移性能を維持または向上させつつ効率を高める。
二次元FFN注意（チャネルと空間の両方）は精度をさらに向上させ、提案された構成を用いた完全なLightViT-Tは78.7% Top-1を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。