Skip to main content
QUICK REVIEW

[论文解读] MLP-Mixer: An all-MLP Architecture for Vision

Ilya Tolstikhin, Neil Houlsby|arXiv (Cornell University)|May 4, 2021
Advanced Neural Network Applications参考文献 58被引用 1,444
一句话总结

MLP-Mixer 显示了一种完全由 MLP 构成的架构,具备 token-mixing 和 channel-mixing 块,在没有卷积或自注意力的情况下,通过大规模预训练和正则化,仍能实现有竞争力的图像分类性能。

ABSTRACT

Convolutional Neural Networks (CNNs) are the go-to model for computer vision. Recently, attention-based networks, such as the Vision Transformer, have also become popular. In this paper we show that while convolutions and attention are both sufficient for good performance, neither of them are necessary. We present MLP-Mixer, an architecture based exclusively on multi-layer perceptrons (MLPs). MLP-Mixer contains two types of layers: one with MLPs applied independently to image patches (i.e. "mixing" the per-location features), and one with MLPs applied across patches (i.e. "mixing" spatial information). When trained on large datasets, or with modern regularization schemes, MLP-Mixer attains competitive scores on image classification benchmarks, with pre-training and inference cost comparable to state-of-the-art models. We hope that these results spark further research beyond the realms of well established CNNs and Transformers.

研究动机与目标

  • 为视觉任务激发扩展定律与架构,超越 CNNs 与 Transformers。
  • 提出一种将 token mixing(空间通信)与 channel mixing(特征通信)分离的全 MLP 架构。
  • 在大规模预训练和正则化下,展示在 ImageNet 和迁移任务中,与计算成本相比具有竞争力的精度。

提出的方法

  • 将输入表示为大小为 S x C 的 patches-by-channels 表 X。
  • 在每个 Mixer 层中使用两个交错的 MLP 块:token-mixing MLP 在列上操作(在行之间共享),channel-mixing MLP 在行上操作(在列之间共享)。
  • 如同标准深度网络那样应用 LayerNorm、GELU 非线性、跳跃连接和 dropout。
  • 避免位置嵌入;依赖 token-mixing MLP 的顺序敏感性以及跨层宽度固定的各向同性架构。
  • 在大规模数据集(ImageNet-21k、JFT-300M 等)上进行预训练,并采用正则化(RandAugment、mixup、dropout、随机深度)等,随后在下游任务上进行微调。

实验结果

研究问题

  • RQ1一个纯 MLP 架构在没有卷积或自注意力的前提下,是否能在视觉任务中实现有竞争力的精度?
  • RQ2MLP-Mixer 的性能如何随模型规模和预训练数据量的增长而扩展?
  • RQ3与 CNN 和 ViT 相比,Mixer 在精度、预训练成本和测试时吞吐量之间的权衡是什么?
  • RQ4模型的归纳偏置(逐位置通道混合与跨位置 token 混合)如何影响对输入置换的鲁棒性与数据效率?

主要发现

  • 在对大规模数据集进行预训练(例如,大约 1 亿张图像)并进行正则化后,MLP-Mixer 取得与最先进模型相当的 ImageNet top-1 精度,且预训练与推理成本与之相当。
  • 该架构的 token-mixing 和 channel-mixing MLP 使跨空间位置和跨通道的信息交换成为可能,分别实现与 CNN 和 Transformer 在一系列迁移任务上的相似性能。
  • 随着上游数据规模的增大,Mixer 的性能显著提升,接近甚至略超某些 CNN/Transformer 基线,同时保持有利的计算/吞吐特性。
  • Mixer 展示了对补丁/顺序排列的不变性以及在全局像素置换下的鲁棒性,突显其与传统 CNN 的不同归纳偏置。
  • 在大规模时,Mixer-H/14 在 ImageNet 上接近 ViT-H/14 的性能且运行速度显著更快,表明在准确性与计算之间具有有利的前沿。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。