[論文レビュー] AS-MLP: An Axial Shifted MLP Architecture for Vision
AS-MLP は MLP フレームワークに軸方向のチャネルシフトを導入し、局所的依存関係を捉え、ImageNet の性能で競争力を発揮し、物体検出やセマンティックセグメンテーションなどの下流タスクへ拡張している。
An Axial Shifted MLP architecture (AS-MLP) is proposed in this paper. Different from MLP-Mixer, where the global spatial feature is encoded for information flow through matrix transposition and one token-mixing MLP, we pay more attention to the local features interaction. By axially shifting channels of the feature map, AS-MLP is able to obtain the information flow from different axial directions, which captures the local dependencies. Such an operation enables us to utilize a pure MLP architecture to achieve the same local receptive field as CNN-like architecture. We can also design the receptive field size and dilation of blocks of AS-MLP, etc, in the same spirit of convolutional neural networks. With the proposed AS-MLP architecture, our model obtains 83.3% Top-1 accuracy with 88M parameters and 15.2 GFLOPs on the ImageNet-1K dataset. Such a simple yet effective architecture outperforms all MLP-based architectures and achieves competitive performance compared to the transformer-based architectures (e.g., Swin Transformer) even with slightly lower FLOPs. In addition, AS-MLP is also the first MLP-based architecture to be applied to the downstream tasks (e.g., object detection and semantic segmentation). The experimental results are also impressive. Our proposed AS-MLP obtains 51.5 mAP on the COCO validation set and 49.5 MS mIoU on the ADE20K dataset, which is competitive compared to the transformer-based architectures. Our AS-MLP establishes a strong baseline of MLP-based architecture. Code is available at https://github.com/svip-lab/AS-MLP.
研究の動機と目的
- MLP ベースのビジョンモデルにおいて、単なる全体トークン混合のみならず局所的な特徴相互作用を活用する必要性を動機づける。
- 純粋な MLP アーキテクチャ内で局所受容野を可能にする軽量な軸方向シフト機構を提案する。
- 階層的特徴統合を備えた four-stage Swin に似たスケーラブルな AS-MLP バックボーンを設計する。
- ImageNet-1K で競争力のある性能を示し、下流タスク(COCO 検出、ADE20K セマンティックセグメンテーション)への移行性を競合させる。
- シフト構成、パディング、膨張、接続スタイルの影響を理解するためのアブレーションを提供する。
提案手法
- 水平方向および垂直方向の特徴シフトを実行し、その後チャネル投影を行う Axial Shifted MLP (AS-MLP) ブロックを導入し、局所的特徴の統合を可能にする。
- Norm 層、残差接続、および MLP ベースのチャネル混合を用いてシフトされた特徴を組み合わせる。
- シフト操作は全注意機構に頼らず、異なる空間位置から情報を集約し、計算量を低く保つ。
- パッチ分割とパッチマージを用いた Swin に類似した four-stage バックボーンを採用し、階層的な表現を形成する。
- シフトサイズ、パディング手法、膨張率、直列対並列接続をアブレーションして、効果的な構成を特定する。
実験結果
リサーチクエスチョン
- RQ1MLP のみのバックボーンにおける軸方向(水平および垂直)特徴シフトは、CNN やウィンドウベースのトランスフォーマーに匹敵する競争力のある局所受容野を達成できるか?
- RQ2どのシフトサイズ、パディング戦略、接続(直列 vs 並列) が精度を最大化しつつ効率を維持するか?
- RQ3AS-MLP は、トランスフォーマーベースのバックボーンと比較して、物体検出やセマンティックセグメンテーションなどの下流タスクへどれだけうまく転送できるか?
- RQ4ImageNet-1K における AS-MLP バリアントのモデルサイズ、FLOPs、精度のトレードオフはどうなるか?
- RQ5Swin Transformer と比較して、同様のリソース制約下で AS-MLP がモバイル対応性能を発揮できるか?
主な発見
| Model | Input | Resolution | Top-1 (%) | Params | FLOPs | Throughput (images/s) |
|---|---|---|---|---|---|---|
| AS-MLP-T | 224 | 224x224 | 81.3 | 28M | 4.4G | 1047.7 |
| AS-MLP-S | 224 | 224x224 | 83.1 | 50M | 8.5G | 619.5 |
| AS-MLP-B | 224 | 224x224 | 83.3 | 88M | 15.2G | 455.2 |
| AS-MLP-B | 384 | 384x384 | 84.3 | 88M | 44.6G | 179.2 |
- AS-MLP は 83.3% Top-1 accuracy を ImageNet-1K で達成し、88M パラメータと 15.2 GFLOPs(AS-MLP-B, 224x224)。
- AS-MLP-B は 384x384 で 84.3% Top-1 を達成、88M パラメータと 44.6 GFLOPs。
- AS-MLP-S は 83.1% Top-1 を 50M パラメータと 8.5 GFLOPs で達成。
- AS-MLP-T は 81.3% Top-1 を 28M パラメータと 4.4 GFLOPs で達成。
- モバイル設定では、AS-MLP(mobile)は Swin(mobile)を Top-1 で上回る(76.05% 対 75.11%)。
- AS-MLP は COCO 物体検出(例:AS-MLP-B 51.5 APb)および ADE20K セマンティックセグメンテーション(AS-MLP-B 49.5 MS mIoU)において、トランスフォーマー系ベースラインと比較して競争力のある結果を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。