QUICK REVIEW

[論文レビュー] A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP

Yucheng Zhao, Guangting Wang|arXiv (Cornell University)|Aug 30, 2021

Advanced Neural Network Applications参考文献 42被引用数 57

ひとこと要約

この論文は、画像分類のためのCNN、Transformer、MLPアーキテクチャを公正に比較する統一SPACHフレームワークを提示し、3つのアーキテクチャすべてが競合的に性能を出せることを示し、多段設計と局所モデリングの利点を強調し、強力なImageNet-1K結果を得るハイブリッド畳み込み-Transformerモデルを提案します。

ABSTRACT

Convolutional neural networks (CNN) are the dominant deep neural network (DNN) architecture for computer vision. Recently, Transformer and multi-layer perceptron (MLP)-based models, such as Vision Transformer and MLP-Mixer, started to lead new trends as they showed promising results in the ImageNet classification task. In this paper, we conduct empirical studies on these DNN structures and try to understand their respective pros and cons. To ensure a fair comparison, we first develop a unified framework called SPACH which adopts separate modules for spatial and channel processing. Our experiments under the SPACH framework reveal that all structures can achieve competitive performance at a moderate scale. However, they demonstrate distinctive behaviors when the network size scales up. Based on our findings, we propose two hybrid models using convolution and Transformer modules. The resulting Hybrid-MS-S+ model achieves 83.9% top-1 accuracy with 63M parameters and 12.3G FLOPS. It is already on par with the SOTA models with sophisticated designs. The code and models are publicly available at https://github.com/microsoft/SPACH.

研究の動機と目的

CNN、Transformer、MLPアーキテクチャが、視覚タスクの公正で統一されたフレームワークの下でどのように機能するかを明確にする。
設計選択（多段設計、局所モデリング）が性能に与える影響をアーキテクチャ間で分離する。
畳み込みとTransformerブロックを組み合わせたハイブリッドモデルが、ImageNet-1Kで単一構造モデルを上回るかを探る。

提案手法

SPACHを導入し、CNN、Transformer、MLPを同一設定で比較するための空間混合ブロックとチャネル混合ブロックを備えたプラグアンドプレイのフレームワーク。
SPACH内で、畳み込み、自己注意、またはMLPを用いて空間混合を実現し、3つのバリアントを形成。
ImageNet-1Kで単段および多段のSPACHバリアントを、AdamW、300エポック、データ拡張といった一貫したトレーニングパイプラインで評価。
MLPおよびTransformerブロックへバイパスとして軽量な3×3深度-wise畳み込みを挿入することで、局所モデリングの影響を分析。
畳み込みベースのバックボーンに選択層をTransformerブロックへ置換することによりHybrid-MS-SおよびHybrid-MS-XSモデルを提案；ディープパッチ埋め込みで強化。

実験結果

リサーチクエスチョン

RQ1CNN、Transformer、MLPアーキテクチャは、統一されたSPACHフレームワークの下で、精度と遅延（またはFLOPs）のトレードオフにおいて同程度を提供するか。
RQ2多段設計と局所モデリングは、三つのアーキテクチャファミリー間の性能にどのように影響するか。
RQ3畳み込みとTransformerコンポーネントを組み合わせたハイブリッドモデルは、複雑なテクニックを使わずにImageNet-1Kで最先端に近い性能を達成できるか。

主な発見

Model	Params (M)	FLOPs	IN-1K Top-1 Acc (%)
Conv-MS-S	44	7.2G	81.6
Trans-MS-S	40	7.6G	82.9
MLP-MS-S	46	8.2G	82.1
Hybrid-MS-XS	28	4.5G	82.4
Hybrid-MS-XS+	28	5.6G	82.8
Hybrid-MS-S	63	11.2G	83.7
Hybrid-MS-S+	63	12.3G	83.9

三つのアーキテクチャすべてが、SPACH内で中規模スケールのImageNet-1K精度を競合的に達成できる。
多段設計は、CNN、Transformer、MLPいずれも単段の対比より一貫して上回る。
局所モデリングを取り入れた軽量な3×3深度-wise畳み込みは、パラメータ/ FLOPコストを最小限に抑えつつTransformerおよびMLPの性能を著しく向上させる。
MLPモデルは大きなサイズで過学習の問題を抱えやすいが、多段設計と重み共有によりこれを緩和し、Transformer/CNNレベルに近づく。
畳み込みとTransformerは補完的：畳み込みはより良い一般化を提供し、Transformerはより高い容量を提供する。ハイブリッドConv-Transformerモデルは複雑な技巧なしに高い成果を達成できる。
Hybrid-MS-S+（63Mパラメータ、12.3G FLOPs）はImageNet-1Kで83.9%のトップ1を達成し、FLOPsが少ないベースラインを超える；Hybrid-MS-XS+は28Mパラメータで82.8%を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。