[论文解读] ConvMLP: Hierarchical Convolutional MLPs for Vision
ConvMLP 引入一个分层主干,协同设计轻量卷积阶段与通道级 MLP,使下游任务具备任意输入尺寸的能力,且在 ImageNet-1k 上达到 76.8% 的 top-1,参数量为 9M。
MLP-based architectures, which consist of a sequence of consecutive multi-layer perceptron blocks, have recently been found to reach comparable results to convolutional and transformer-based methods. However, most adopt spatial MLPs which take fixed dimension inputs, therefore making it difficult to apply them to downstream tasks, such as object detection and semantic segmentation. Moreover, single-stage designs further limit performance in other computer vision tasks and fully connected layers bear heavy computation. To tackle these problems, we propose ConvMLP: a hierarchical Convolutional MLP for visual recognition, which is a light-weight, stage-wise, co-design of convolution layers, and MLPs. In particular, ConvMLP-S achieves 76.8% top-1 accuracy on ImageNet-1k with 9M parameters and 2.4G MACs (15% and 19% of MLP-Mixer-B/16, respectively). Experiments on object detection and semantic segmentation further show that visual representation learned by ConvMLP can be seamlessly transferred and achieve competitive results with fewer parameters. Our code and pre-trained models are publicly available at https://github.com/SHI-Labs/Convolutional-MLPs.
研究动机与目标
- 解决固定维度 Spatial MLP 对下游任务(检测、分割)与单阶段设计的局限性。
- 提出一个混合的 ConvMLP 主干,结合卷积阶段与通道 MLP 块,以实现可扩展的多任务视觉模型。
- 在 ImageNet-1k 上展示强性能与效率,并转移到检测与分割基准上。
提出的方法
- 用通道 MLP 取代空间 MLP,以消除输入维度约束。
- 添加轻量级卷积阶段以增强空间交互。
- 引入一个 Conv-MLP 块,在两个通道 MLP 之间插入深度卷积以改善空间通信。
- 使用卷积标记器和分层多阶段结构形成可扩展的主干。
- 对卷积阶段和 Conv-MLP 阶段的深度与宽度进行缩放,以得到 S/M/L 版本。
实验结果
研究问题
- RQ1ConvMLP 是否可作为下游任务(检测/分割)的一键替代主干,且支持任意输入尺寸?
- RQ2卷积阶段与 Conv-MLP 阶段的协同设计是否比以往的基于 MLP 或 Transformer 的主干在准确率对参数和准确率对 GMAC 的表现上更优?
- RQ3与 state-of-the-art 模型相比,ConvMLP 在 ImageNet-1k 及迁移任务上的表现如何?
主要发现
| Model | # Params (M) | ImageNet-1k (%) | CIFAR-10 (%) | CIFAR-100 (%) | Flowers-102 (%) |
|---|---|---|---|---|---|
| ConvMLP-S | 9.0 | 76.8 | 98.0 | 87.4 | 99.5 |
| ResMLP-S12 | 15.4 | 76.6 | 98.1 | 87.0 | 97.4 |
| ConvMLP-M | 17.4 | 79.0 | 98.6 | 89.1 | 99.5 |
| ResMLP-S24 | 30.0 | 79.4 | 98.7 | 89.5 | 97.4 |
| ConvMLP-L | 42.7 | 80.2 | 98.6 | 88.6 | 99.5 |
| ViT-B | 86.6 | 81.8 | 99.1 | 90.8 | 98.4 |
| DeiT-B | 86.6 | 83.4 | 99.1 | 91.3 | 98.9 |
- ConvMLP-S 在 ImageNet-1k 上以 9.0M 参数和 2.4 GMAC 实现 76.8% 的 top-1 准确率。
- ConvMLP 的变体在参数更少、计算成本更低的情况下也展现出与若干当代 MLP 基于模型相当的准确性。
- 在 ImageNet-1k 上,ConvMLP-L 达到 80.2% 的 top-1,参数 42.7M,9.9 GMAC;ConvMLP-M 达到 79.0%,参数 17.4M,3.9 GMAC(表 3)。
- 基于 ConvMLP 的主干在目标检测与分割的骨干网络(RetinaNet、Mask R-CNN、Semantic FPN)方面相较于纯 MLP 或 ResNet 基线有所提升(表 5–7)。
- ConvMLP 展示出对 COCO 与 ADE20K 的可迁移表征,在检测与分割场景中得到稳定收益(图 3)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。