[論文レビュー] Rethinking Local Perception in Lightweight Vision Transformer
CloFormer は、二つのブランチ設計を持つ軽量なビジョン・トランスフォーマーです:高周波の局所特徴を統合する共有重みと文脈認識重みを融合するローカル AttnConv ブランチ、低周波のグローバル情報のためのダウンサンプリングされたグローバルアテンションブランチで、FLOPs が低いまま高い精度を達成します。
Vision Transformers (ViTs) have been shown to be effective in various vision tasks. However, resizing them to a mobile-friendly size leads to significant performance degradation. Therefore, developing lightweight vision transformers has become a crucial area of research. This paper introduces CloFormer, a lightweight vision transformer that leverages context-aware local enhancement. CloFormer explores the relationship between globally shared weights often used in vanilla convolutional operators and token-specific context-aware weights appearing in attention, then proposes an effective and straightforward module to capture high-frequency local information. In CloFormer, we introduce AttnConv, a convolution operator in attention's style. The proposed AttnConv uses shared weights to aggregate local information and deploys carefully designed context-aware weights to enhance local features. The combination of the AttnConv and vanilla attention which uses pooling to reduce FLOPs in CloFormer enables the model to perceive high-frequency and low-frequency information. Extensive experiments were conducted in image classification, object detection, and semantic segmentation, demonstrating the superiority of CloFormer. The code is available at \url{https://github.com/qhfan/CloFormer}.
研究の動機と目的
- モバイルサイズの ViT の性能低下を動機づけ、局所知覚を向上させることで対処する。
- 共有(畳み込み)と文脈認識(アテンション様)重みを融合させた軽量なバックボーンを設計する。
- 翻訳(平行移動)等価性を維持しつつ高周波の局所情報を捉える AttnConv を提案する。
- 高周波と低周波の情報の両方をモデル化するため、局所 AttnConv ブランチとダウンサンプリングされたグローバルアテンション ブランチを組み合わせる。
- 競合する FLOPs とパラメータ数で、画像分類、物体検出、セマンティックセグメンテーションの分野で有効性を示す。
提案手法
- AttnConv を導入する。これは、深さ方向畳み込み(共有重み)を用いて局所情報を集約し、その後 Q, K の処理と非線形変換(Tanh や Swish を含む)による文脈認識重み生成を行う、アテンション風の畳み込み演算子である。
- 局所ブランチ(AttnConv)で高周波情報、グローバルブランチ(ダウンサンプリングされた K と V)で低周波情報を扱う、二 branch の Clo ブロックを用いる。
- 局所ブランチとグローバルブランチの出力を連結し、最終的に全結合層で融合する。
- 標準的な FFN を ConvFFN(GELU 後に DWconv)に置換し、ネットワーク全体に局所情報を注入する。
- 高頻度から低頻度までの特徴を捉えるため、4段階の CloFormer バリアントと、AttnConv のカーネルサイズを順次大きく(3 から 9)する。
実験結果
リサーチクエスチョン
- RQ1共有重みと文脈認識重みをどう組み合わせて、軽量な ViT における局所知覚を改善できるか?
- RQ2モバイル制約の下で、二 Branch アーキテクチャは高周波の局所情報と低周波のグローバル情報を効果的に融合できるか?
- RQ3AttnConv は非線形で翻訳等価性を持つ局所知覚機構を提供し、軽量設定で従来の畳み込みや自己注意を上回るか?
主な発見
| モデル | パラメータ(M) | FLOPs(G) | Top1(%) | CPU(ms) | GPU(imgs/s) | メモリ(GB) |
|---|---|---|---|---|---|---|
| CloFormer-XXS | 4.2 | 0.6 | 77.0 | 44.1 | 2425 | 3.4 |
| CloFormer-XS | 7.2 | 1.1 | 79.8 | 62.4 | 1676 | 4.7 |
| CloFormer-S | 12.3 | 2.0 | 81.6 | 93.1 | 1186 | 6.3 |
| EdgeViT-XXS | 4.1 | 0.6 | 74.4 | 42.1 | 1926 | 2.6 |
- CloFormer-XXS は ImageNet-1K で Top-1 77.0%、パラメータ 4.2M、0.6 GFLOPs。
- CloFormer-XS は 79.8% Top-1、7.2M パラメータ、1.1 GFLOPs。
- CloFormer-S は 81.6% Top-1、12.3M パラメータ、2.0 GFLOPs。
- COCO 物体検出では、CloFormer-XXS は 類似の軽量バックボーン(例: EdgeViT 変種)より最大で AP を 0.9 向上。
- ADE20K セマンティックセグメンテーションでは、CloFormer-XXS/XS が EdgeViT 変種より最大で 0.7–1.0 ポイント高い mIoU を達成。
- アブレーションでは、AttnConv(Swish-Tanh 非線形性と DWconv を用いる)が、ImageNet、COCO、ADE20K を横断する共有のみまたは文脈注意のみの構成より優れていることを示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。