[論文レビュー] Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition
Vision Permutatorは、高さと幅に沿って空間情報を別々にエンコードする3枝のPermute-MLPを導入し、MLP様のアーキテクチャで競争力のあるImageNet結果を達成し、パラメータは25M–88M。
In this paper, we present Vision Permutator, a conceptually simple and data efficient MLP-like architecture for visual recognition. By realizing the importance of the positional information carried by 2D feature representations, unlike recent MLP-like models that encode the spatial information along the flattened spatial dimensions, Vision Permutator separately encodes the feature representations along the height and width dimensions with linear projections. This allows Vision Permutator to capture long-range dependencies along one spatial direction and meanwhile preserve precise positional information along the other direction. The resulting position-sensitive outputs are then aggregated in a mutually complementing manner to form expressive representations of the objects of interest. We show that our Vision Permutators are formidable competitors to convolutional neural networks (CNNs) and vision transformers. Without the dependence on spatial convolutions or attention mechanisms, Vision Permutator achieves 81.5% top-1 accuracy on ImageNet without extra large-scale training data (e.g., ImageNet-22k) using only 25M learnable parameters, which is much better than most CNNs and vision transformers under the same model size constraint. When scaling up to 88M, it attains 83.2% top-1 accuracy. We hope this work could encourage research on rethinking the way of encoding spatial information and facilitate the development of MLP-like models. Code is available at https://github.com/Andrew-Qibin/VisionPermutator.
研究の動機と目的
- ImageNet-1kデータでうまく機能するデータ効率の高いMLP風モデルを動機づける。
- 2Dの位置情報を保持する空間認識型のMLP風レイヤを提案する。
- 高さと幅の分離エンコードが、フラット化されたトークンのMLPより性能を向上させることを示す。
- 同程度のモデルサイズでCNNや視覚トランスフォーマーと競合する結果を示す。
提案手法
- 入力画像をパッチに分割し、共有線形射影でトークン埋め込みに写像する。
- Permutatorブロックの系列を使用し、Permute-MLP(高さ、幅、チャネルブランチ)とChannel-MLPを組み合わせて特徴を混合する。
- Permute-MLPは、height-channelおよびwidth-channelの置換と線形射影を用いて高さと幅を別々にエンコードする。
- ブランチ出力を加算によって統合し、特徴融合のための最終FC層を用いる。
- 必要に応じてsplit-attentionによるWeighted Permute-MLPを適用し、ブランチ出力の再重み付けを行う。
- 標準的なデータ拡張とAdamWで訓練し、ImageNet-1k以外の追加データは使用しない。
実験結果
リサーチクエスチョン
- RQ1MLP風ネットワークにおいて、高さと幅の空間情報を別々にエンコードすることが、フラット化された空間表現より性能を向上させるか?
- RQ2データ効率の高い訓練下で、どのスケール(Small/Medium/Large)とパッチ構成が最良のImageNet-1k精度をもたらすか?
- RQ3データ拡張戦略はVision Permutatorの性能にどう影響するか?
- RQ4Permute-MLPブランチをウェイト付けするWeighted Permute-MLPは、単純な加算と比べて有益か?
主な発見
| モデル | パラメータ数(M) | スループット(img/s) | 訓練データ数 | テストデータ数 | Top-1 精度(%) |
|---|---|---|---|---|---|
| ViP-Small/14 | 30 | 789 | 224 | 224 | 80.5 |
| ViP-Small/7 | 25 | 719 | 224 | 224 | 81.5 |
| ViP-Medium/7 | 55 | 418 | 224 | 224 | 82.7 |
| ViP-Large/7 | 88 | 298 | 224 | 224 | 83.2 |
- ViP-Small/7は25Mパラメータで追加データなしでImageNetのTop-1 81.5%を達成。
- ViP-Medium/7は55MパラメータでTop-1 82.7%に到達。
- ViP-Large/7は88MパラメータでTop-1 83.2%に到達。
- データ拡張(Random Aug、CutOut、MixUp、CutMix)は精度を大幅に向上させ、CutMixは75.3%から80.6%へ改善。
- 高さと幅の両方の情報をエンコードすることが重要で、どちらかを削除すると精度は約72-73%に低下し、Weighted Permute-MLPは80.6%へ改善する。
- モデルのスケーリング(より多くの層とより大きな隠れ次元)は一貫して性能を向上させる(ViP-Small/7 から ViP-Large/7: 81.5% → 83.2%)。”],
- table_headers_ja_placeholder translated?
- table_headers_ms_weird_placeholder
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。