Skip to main content
QUICK REVIEW

[論文レビュー] ConvMLP: Hierarchical Convolutional MLPs for Vision

Jiachen Li, Ali Hassani|arXiv (Cornell University)|Sep 9, 2021
Advanced Neural Network Applications参考文献 41被引用数 25
ひとこと要約

ConvMLPは階層的なバックボーンを導入し、軽量な畳み込み段とチャネルごとのMLPを協調設計することで任意入力サイズの下流タスクを実現し、9MパラメータでImageNet-1kのトップ1を76.8%達成。

ABSTRACT

MLP-based architectures, which consist of a sequence of consecutive multi-layer perceptron blocks, have recently been found to reach comparable results to convolutional and transformer-based methods. However, most adopt spatial MLPs which take fixed dimension inputs, therefore making it difficult to apply them to downstream tasks, such as object detection and semantic segmentation. Moreover, single-stage designs further limit performance in other computer vision tasks and fully connected layers bear heavy computation. To tackle these problems, we propose ConvMLP: a hierarchical Convolutional MLP for visual recognition, which is a light-weight, stage-wise, co-design of convolution layers, and MLPs. In particular, ConvMLP-S achieves 76.8% top-1 accuracy on ImageNet-1k with 9M parameters and 2.4G MACs (15% and 19% of MLP-Mixer-B/16, respectively). Experiments on object detection and semantic segmentation further show that visual representation learned by ConvMLP can be seamlessly transferred and achieve competitive results with fewer parameters. Our code and pre-trained models are publicly available at https://github.com/SHI-Labs/Convolutional-MLPs.

研究の動機と目的

  • 固定次元のSpatial MLPが下流タスク(検出、セグメンテーション)や単一段設計にもたらす制約を解消する。
  • 畳み込み段とチャネルMLPブロックを組み合わせたハイブリッドConvMLPバックボーンを提案し、スケーラブルでマルチタスクの視覚モデルを実現する。
  • ImageNet-1kでの高性能と効率、検出・セグメンテーションベンチマークへの転移を実証する。

提案手法

  • 空間MLPをチャネルMLPに置き換え、入力次元の制約を除去する。
  • 空間的相互作用を補完する軽量な畳み込み段を追加する。
  • 二つのチャネルMLPの間に深さ方向畳み込みを挿入したConv-MLPブロックを導入し、空間的伝達を改善する。
  • 畳み込みトークン化子と階層的マルチステージアーキテクチャを使用して、スケーラブルなバックボーンを形成する。
  • 畳み込み段とConv-MLP段の深さと幅をスケールさせ、S/M/Lバリアントを得る。

実験結果

リサーチクエスチョン

  • RQ1ConvMLPは任意の入力サイズで下流タスク(検出/セグメンテーション)のドロップインバックボーンとして機能するか?
  • RQ2畳み込み段とConv-MLP段の共設計は、パラメータあたりの精度とGMACあたりの精度で従来のMLPベースやトランスフォーマーベースのバックボーンより優れているか?
  • RQ3ConvMLPはImageNet-1kと転移タスクで、最先端モデルと比較してどのような性能を示すか?

主な発見

Model# Params (M)ImageNet-1k (%)CIFAR-10 (%)CIFAR-100 (%)Flowers-102 (%)
ConvMLP-S9.076.898.087.499.5
ResMLP-S1215.476.698.187.097.4
ConvMLP-M17.479.098.689.199.5
ResMLP-S2430.079.498.789.597.4
ConvMLP-L42.780.298.688.699.5
ViT-B86.681.899.190.898.4
DeiT-B86.683.499.191.398.9
  • ConvMLP-Sは9.0Mパラメータと2.4 GMACでImageNet-1kのトップ1精度76.8%を達成。
  • ConvMLPのバリアントは、いくつかの現代的なMLPベースモデルよりも少ないパラメータと低い計算コストで競争力のある精度を示す。
  • ImageNet-1kではConvMLP-Lが42.7Mパラメータと9.9 GMACで80.2%トップ1、ConvMLP-Mが17.4Mパラメータと3.9 GMACで79.0%を達成(表3)。
  • ConvMLPベースのバックボーンは、Pure-MLPやResNetベースラインと比較してオブジェクト検出とセグメンテーションのバックボーンを改善する(RetinaNet、Mask R-CNN、Semantic FPN:表5–7)。
  • ConvMLPはCOCOとADE20Kへの表現転移を示し、検出とセグメンテーションのシナリオで一貫した利得を得られる(図3)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。