QUICK REVIEW

[论文解读] Pay Attention to MLPs

Hanxiao Liu, Zihang Dai|arXiv (Cornell University)|May 17, 2021

Multimodal Machine Learning Applications参考文献 44被引用 33

一句话总结

该论文提出 gMLP，一种基于 MLP 的架构，具有 Spatial Gating Unit（空间门控单元），在语言和视觉任务上能够与 Transformer 的性能相匹配，当提供更多数据和计算时与 Transformer 的扩展性保持一致，微小的注意力在 NLP 微调中可选地提升。

ABSTRACT

Transformers have become one of the most important architectural innovations in deep learning and have enabled many breakthroughs over the past few years. Here we propose a simple network architecture, gMLP, based on MLPs with gating, and show that it can perform as well as Transformers in key language and vision applications. Our comparisons show that self-attention is not critical for Vision Transformers, as gMLP can achieve the same accuracy. For BERT, our model achieves parity with Transformers on pretraining perplexity and is better on some downstream NLP tasks. On finetuning tasks where gMLP performs worse, making the gMLP model substantially larger can close the gap with Transformers. In general, our experiments show that gMLP can scale as well as Transformers over increased data and compute.

研究动机与目标

评估自注意力是否对 Transformer 类成功在 NLP 和视觉任务中至关重要。
开发一种基于 MLP 的替代方案（gMLP），使跨 token 的交互在不使用自注意力的情况下实现。
在 ImageNet 和 MLM 任务上评估 gMLP，以与 ViT/Transformer 基线进行比较。
探索 gMLP 相对于 Transformers 在模型规模和数据规模下的扩展行为。
探究在 NLP 微调中为 gMLP 增添微小注意力时的作用。

提出的方法

将 gMLP 构建为由通道投影和 Spatial Gating Unit（SGU）组成的块堆叠，通过乘法门控实现跨 token 交互。
将 SGU 定义为 s(Z)=Z ⊙ f_{W,b}(Z)，其中 W 初始化接近零，b 设为全 1 以初始为恒等映射。
将 Z 拆分为 Z1、Z2，以实现两路门控（Z1 ⊙ f(Z2)）。
使用一个类似空间深度卷积的操作实现 s(·)，使局部性和可从数据中学习的内核形状成为可能。
在 ImageNet 上进行无外部数据的对比训练，将 gMLP 与 ViT/DeiT 进行比较，使用与 DeiT 相似的正则化。
在 BERT 设置下对 gMLP 进行 MLM 的预训练和微调，比较困惑度和下游任务与 Transformer 基线。
研究模型规模对困惑度和跨 Transformer 和 gMLP 的 GLUE 微调结果的影响。
通过在 gMLP 中增加一个微小的单头自注意力，评估 aMLP 对跨句对齐在 NLP 微调任务中的影响。

实验结果

研究问题

RQ1自注意力是否对视觉和语言模型的强表现至关重要，还是基于 MLP 的架构也足以胜任？
RQ2gMLP 是否能够在 NLP 的预训练困惑度及下游任务表现上达到与 Transformers 相当的水平？
RQ3在视觉和 NLP 基准上，随着数据和计算的增加，gMLP 与 Transformer 的扩展性如何？
RQ4在 NLP 微调任务中添加一个微小的注意力模块对需要跨句对齐的任务有何影响？
RQ5在参数效率与准确性方面，gMLP 与 Transformer 家族之间的实际权衡是什么？

主要发现

在与类似训练设置下，gMLP 在 ImageNet 上的准确度与 DeiT 相当，其中一个变体的参数量少 66%，并且优于某些其他类似 MLP 的模型。
在 MLM 预训练中，带 SGU 的 gMLP 的困惑度接近 Transformers，表明困惑度与模型容量相关，而非自注意力的存在。
扩展性实验表明，深度且具备能力的 gMLP 在相似容量下可以匹配或超过 Transformer 的困惑度和 GLUE 微调分数，困惑度对参数呈现幂律趋势。
一个微小的单头自注意力模块（aMLP）在 NLP 微调中显著提升诸如 MNLI 和 SQuAD 等任务的表现，在相当容量下有时超过 Transformer。
Spacial Gating Unit 通过门控机制实现跨 token 交互，类似 GLUs 和 SE 块，但使用静态空间投影，提供非注意力路径以实现更高阶的 token 交互。
对学习到的空间权重的可视化表明 gMLP 能学习局部性和空间不变性，实质上在 token 之间执行数据驱动的、不规则卷积。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。