[论文解读] Rethinking Mobile Block for Efficient Attention-based Models
引入 Meta Mobile Block (MMB),将 CNN 风格的 inverted residual block 与注意力模块统一起来,产生基于 iRMB 的 EMO 模型,在 ImageNet、COCO 和 ADE20K 上以更少的参数和 FLOPs 超越最新的轻量级 CNN/Transformer 方法。
This paper focuses on developing modern, efficient, lightweight models for dense predictions while trading off parameters, FLOPs, and performance. Inverted Residual Block (IRB) serves as the infrastructure for lightweight CNNs, but no counterpart has been recognized by attention-based studies. This work rethinks lightweight infrastructure from efficient IRB and effective components of Transformer from a unified perspective, extending CNN-based IRB to attention-based models and abstracting a one-residual Meta Mobile Block (MMB) for lightweight model design. Following simple but effective design criterion, we deduce a modern Inverted Residual Mobile Block (iRMB) and build a ResNet-like Efficient MOdel (EMO) with only iRMB for down-stream tasks. Extensive experiments on ImageNet-1K, COCO2017, and ADE20K benchmarks demonstrate the superiority of our EMO over state-of-the-art methods, e.g., EMO-1M/2M/5M achieve 71.5, 75.1, and 78.4 Top-1 that surpass equal-order CNN-/Attention-based models, while trading-off the parameter, efficiency, and accuracy well: running 2.8-4.0x faster than EdgeNeXt on iPhone14.
研究动机与目标
- 为移动/密集预测任务平衡参数、FLOPs 与精度,提出轻量、高效的骨干网络的需求。
- 提出一个统一的模块(MMB),将 inverted residuals 与 Transformer 组件进一步泛化以提高效率。
- 推导现代的 Inverted Residual Mobile Block (iRMB),并构建一个仅由 iRMB 组成的类 ResNet 的 EMO 模型。
- 展示 EMO 相对于 SoTA 轻量 CNN/Transformer 模型在分类和下游任务上的卓越性能。
提出的方法
- 将 Transformer 的 FFN 与 MHSA 以及 MobileNetv2 的 IRB 的共享结构抽象成一个单一残差的 Meta Mobile Block (MMB)。
- 将 Inverted Residual Mobile Block (iRMB) 作为级联 DW-Conv 的实例,并结合改进的 EW-MHSA 来建模局部和远程依赖关系。
- 通过 MLP_e 从扩展通道计算 Q/K,从原始特征图获取 V,再由 MLP_s 恢复通道,引入 Expanded Window MHSA (EW-MHSA)。
- 构建一个仅由 iRMB 构成的 ResNet-式四阶段 EMO,适用于密集预测任务。
- 在 ImageNet-1K、COCO 2017 和 ADE20K 上验证 EMO,展示在参数/ FLOPs 更低的情况下具有竞争力的 Top-1、mAP 与 mIoU。
实验结果
研究问题
- RQ1是否可以将受 CNN(IRB)启发的轻量级架构扩展到注意力模型,而不增加复杂模块?
- RQ2统一的 Meta Mobile Block (MMB) 是否捕捉到 IRB、MHSA 和 FFN 的核心操作,从而实现高效的 iRMB 设计?
- RQ3基于 iRMB 的 EMO 主干在分类和密集预测基准上的表现如何,相较于基于 CNN 与 Transformer 的轻量模型?
- RQ4在 iRMB 中使用 EW-MHSA 与 DW-Conv 并在不同规模(1M/2M/5M)下,精度、参数与 FLOPs 的权衡是什么?
主要发现
- EMO-1M/2M/5M 在 ImageNet-1K 上实现 71.5、75.1、78.4 的 Top-1,超越同阶的 CNN-/Attention 基准模型。
- EMO-1M/2M/5M 在 COCO 2017 上使用 SSDLite 达到 22.0、25.2、27.9 mAP,参数分别为 2.3M/3.3M/6.0M,FLOPs 分别为 0.6G/0.9G/1.8G。
- EMO-5M/EMO-6M 在 ImageNet-1K 上达到 78.4/79.0 Top-1,参数显著低于许多 NAS 基于的 EfficientNet/ EfficientFormer 对应模型。
- 对于密集预测,基于 EMO 的 DeepLabv3 在 ADE20K 上达到 33.5/35.3/37.8 mIoU,在类似或更低的 FLOPs 下超越 MobileViTv2 变体。
- 由于简单的 iRMB 设计,EMO 在 CPU/GPU 和移动设备上的吞吐量更高(例如在 iPhone14 上较 EdgeNeXt 提升 2.8×–4.0×)。
- 消融实验显示 EW-MHSA 与 DW-Conv 各自贡献显著,当两者同时使用时获得最佳结果(78.4 Top-1)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。