[論文レビュー] S$^2$-MLPv2: Improved Spatial-Shift MLP Architecture for Vision
S2-MLPv2 は Spatial-Shift MLP を拡張されたチャネルで拡張し、異なる空間シフトで分割し、split-attention によって融合することで、追加データなしでImageNet-1Kの Top-1 83.6% を達成します。パラメータは 55M。
Recently, MLP-based vision backbones emerge. MLP-based vision architectures with less inductive bias achieve competitive performance in image recognition compared with CNNs and vision Transformers. Among them, spatial-shift MLP (S$^2$-MLP), adopting the straightforward spatial-shift operation, achieves better performance than the pioneering works including MLP-mixer and ResMLP. More recently, using smaller patches with a pyramid structure, Vision Permutator (ViP) and Global Filter Network (GFNet) achieve better performance than S$^2$-MLP. In this paper, we improve the S$^2$-MLP vision backbone. We expand the feature map along the channel dimension and split the expanded feature map into several parts. We conduct different spatial-shift operations on split parts. Meanwhile, we exploit the split-attention operation to fuse these split parts. Moreover, like the counterparts, we adopt smaller-scale patches and use a pyramid structure for boosting the image recognition accuracy. We term the improved spatial-shift MLP vision backbone as S$^2$-MLPv2. Using 55M parameters, our medium-scale model, S$^2$-MLPv2-Medium achieves an $83.6\%$ top-1 accuracy on the ImageNet-1K benchmark using $224\times 224$ images without self-attention and external training data.
研究の動機と目的
- MLP ベースのビジョン・バックボーンを、より少ない帰納的バイアスで改善することを動機づける。
- チャネル拡張と split-attention によってクロスパッチ通信を強化するために S2-MLPv2 を導入する。
- 小さなパッチによるピラミッド構造を活用して認識精度を向上させる。
- 外部データなしで ImageNet-1K における中規模 MLP モデル間で最先端の性能を示す。
提案手法
- S2-MLP ブロックのチャネル次元を c から 3c に MLP を用いて拡張する。
- 拡張された特徴マップを 3 つの部に分割し、最初の 2 部に非対称な 2 種の空間シフト演算を適用する。
- 3 つのシフトした部を split-attention メカニズムで融合し、出力特徴を生成する。
- 小さなパッチを用いた2レベルのピラミッド構造を組み込み、細粒度モデリングを強化する。
- S2-MLPv2 コンポーネントと CM-MLP(チャネル混合 MLP)を、2ブロックの S2-MLPv2 形式で併用する。
実験結果
リサーチクエスチョン
- RQ1チャネルを拡張し、異なるシフト分割に split-attention を適用することで、元の S2-MLP に対するクロスパッチ通信が改善されるか。
- RQ2小さなパッチを用いたピラミッド構造を採用することで、外部データなしの ImageNet-1K における S2-MLPv2 の精度を向上させるか。
主な発見
| モデル | ピラミッド | パラメータ (M) | FLOPs (B) | 訓練データ量 | テストデータサイズ | Top-1 精度 (%) |
|---|---|---|---|---|---|---|
| S2-MLPv2-Small/7 | ✓ | 25 | 6.9 | 224 | 224 | 82.0 |
| S2-MLPv2-Medium/7 | ✓ | 55 | 16.3 | 224 | 224 | 83.6 |
- S2-MLPv2-Medium/7 は ImageNet-1K (224x224) で Top-1 83.6% を、55M のパラメータと 16.3B FLOPs で達成する。
- S2-MLPv2-Small/7 は Top-1 82.0% を、25M のパラメータと 6.9B FLOPs で達成する。
- split-attention 融合は単純な sum-pooling よりも優れており(Small/7 の Top-1 は 82.0% 対 79.8%)、性能を向上させる。
- 小さなパッチを用いた2レベルのピラミッドは、ピラミッド無しの Small/14 構成と比べて性能を向上させる(Small/7: 82.0% 対 Small/14: 80.9%)。
- CNNs およびビジョン・トランスフォーマーと比較して、S2-MLPv2-Medium/7 は多くのトランスフォーマーモデルよりもパラメータ数が少ない状態で、同等の精度を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。