[論文レビュー] Rethinking Mobile Block for Efficient Attention-based Models
CNN風の inverted residual ブロックと注意モジュールを統一する Meta Mobile Block (MMB) を提案し、iRMB ベースの EMO モデルが ImageNet、COCO、ADE20K で最先端の軽量 CNN/Transformer 手法をパラメータと FLOPs を抑えつつ上回る。
This paper focuses on developing modern, efficient, lightweight models for dense predictions while trading off parameters, FLOPs, and performance. Inverted Residual Block (IRB) serves as the infrastructure for lightweight CNNs, but no counterpart has been recognized by attention-based studies. This work rethinks lightweight infrastructure from efficient IRB and effective components of Transformer from a unified perspective, extending CNN-based IRB to attention-based models and abstracting a one-residual Meta Mobile Block (MMB) for lightweight model design. Following simple but effective design criterion, we deduce a modern Inverted Residual Mobile Block (iRMB) and build a ResNet-like Efficient MOdel (EMO) with only iRMB for down-stream tasks. Extensive experiments on ImageNet-1K, COCO2017, and ADE20K benchmarks demonstrate the superiority of our EMO over state-of-the-art methods, e.g., EMO-1M/2M/5M achieve 71.5, 75.1, and 78.4 Top-1 that surpass equal-order CNN-/Attention-based models, while trading-off the parameter, efficiency, and accuracy well: running 2.8-4.0x faster than EdgeNeXt on iPhone14.
研究の動機と目的
- モバイル/密な予測タスクのために、パラメータ数・FLOPs・精度のバランスを取る軽量で効率的なバックボーンの必要性を動機づける。
- 効率性のために inverted residuals と Transformer の構成要素を一般化する統一ブロック (MMB) を提案する。
- 現代的な Inverted Residual Mobile Block (iRMB) を導出し、iRMB だけで構成される ResNet 系 EMO モデルを構築する。
- 分類および下流タスクにおいて、EMO が SoTA の軽量 CNN/Transformer モデルを上回る性能を示す。
提案手法
- Transformers の FFN と MHSA、および MobileNetv2 の IRB の共通構造から、1 残差の Meta Mobile Block (MMB) を抽象化する。
- DW-Conv のカスケードと改良された EW-MHSA を用いて、局所的および長距離依存をモデル化する Inverted Residual Mobile Block (iRMB) を実装する。
- Expanded Window MHSA (EW-MHSA) を、元の特徴マップから Q/K を、拡張されたチャネルを MLP_e によって V を計算し、続いて MLP_s でチャネルを復元することで導入する。
- 密な予測タスクのために iRMB のみで構成される ResNet-様の 4 相 EMO を構築する。
- ImageNet-1K、COCO 2017、ADE20K で EMO を検証し、パラメータ数/ FLOPs を抑えつつ競争力のある Top-1、mAP、mIoU を示す。
実験結果
リサーチクエスチョン
- RQ1CNNs に触発された軽量なインフラストラクチャ (IRB) を、複雑なモジュールを追加せずに注意機構ベースのモデルへ拡張できるか?
- RQ2統一された Meta Mobile Block (MMB) は、IRB、MHSA、FFN の本質的な演算を捉え、効率的な iRMB 設計を可能にするか?
- RQ3iRMB ベースの EMO バックボーンは、分類および密Prediction のベンチマークで、CNN- および Transformer ベースの軽量モデルと比較してどう性能を示すか?
- RQ4異なるスケール (1M/2M/5M) で iRMB 内で EW-MHSA および DW-Conv を使用した場合の、精度、パラメータ、FLOPs のトレードオフはどのようになるか?
主な発見
- EMO-1M/2M/5M は ImageNet-1K で Top-1 が 71.5、75.1、78.4 を達成し、同等オーダーの CNN-/Attention ベースのモデルを上回る。
- EMO-1M/2M/5M は SSDLite で COCO 2017 において 22.0、25.2、27.9 mAP を達成し、パラメータ数はそれぞれ 2.3M/3.3M/6.0M、FLOPs は 0.6G/0.9G/1.8G のみ。
- EMO-5M/EMO-6M は ImageNet-1K で Top-1 が 78.4/79.0 に達し、多くの NAS ベースの EfficientNet/ EfficientFormer に比べてはるかに少ないパラメータである。
- 密予測のため、EMO ベースの DeepLabv3 は ADE20K で 33.5/35.3/37.8 mIoU を達成し、類似または低い FLOPs で MobileViTv2 系よりも優れている。
- EMO は CPU/GPU およびモバイル機器上でより高速なスループットを示し、シンプルな iRMB 設計のおかげで EdgeNeXt よりも iPhone14 で 2.8×–4.0× のスピードアップを達成している。
- アブレーション実験で EW-MHSA と DW-Conv がそれぞれ大幅な向上に寄与し、両方を用いた場合が最良の結果(78.4 Top-1)となる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。