Skip to main content
QUICK REVIEW

[论文解读] Fastformer: Additive Attention is All You Need

Chuhan Wu, Fangzhao Wu|arXiv (Cornell University)|Aug 20, 2021
Topic Modeling参考文献 20被引用 3
一句话总结

Fastformer 提出了一种线性复杂度的 Transformer 变体,通过使用加法注意力高效建模全局上下文,将二次方自注意力替换为两阶段过程:全局上下文编码,随后是针对每个标记的上下文交互。该方法在长序列上实现了最先进性能,且推理速度显著优于标准 Transformer。

ABSTRACT

Transformer is a powerful model for text understanding. However, it is inefficient due to its quadratic complexity to input sequence length. Although there are many methods on Transformer acceleration, they are still either inefficient on long sequences or not effective enough. In this paper, we propose Fastformer, which is an efficient Transformer model based on additive attention. In Fastformer, instead of modeling the pair-wise interactions between tokens, we first use additive attention mechanism to model global contexts, and then further transform each token representation based on its interaction with global context representations. In this way, Fastformer can achieve effective context modeling with linear complexity. Extensive experiments on five datasets show that Fastformer is much more efficient than many existing Transformer models and can meanwhile achieve comparable or even better long text modeling performance.

研究动机与目标

  • 解决标准 Transformer 在长序列建模中的二次方计算复杂度问题。
  • 开发一种高效的注意力机制,在长上下文任务中保持强性能。
  • 通过全局上下文建模方法替代成对标记交互,以提升可扩展性。

提出的方法

  • 用加法注意力机制替代标准自注意力,以建模全局上下文表征。
  • 首先,通过在所有标记上使用加法注意力计算全局上下文表征。
  • 然后,每个标记的表征通过可学习变换关注全局上下文进行更新。
  • 通过避免完整的成对注意力计算,实现线性复杂度。
  • 该架构采用标准目标端到端训练,保持与现有 Transformer 框架的兼容性。

实验结果

研究问题

  • RQ1加法注意力能否在保持序列建模性能的同时,高效建模全局上下文?
  • RQ2将二次方自注意力替换为两阶段加法过程,是否能在长序列上保持或提升性能?
  • RQ3所得到的模型能否在不损失准确率的情况下实现线性复杂度,相比标准 Transformer?

主要发现

  • Fastformer 实现了计算上的线性复杂度,在长序列上的推理时间显著短于标准 Transformer。
  • 在五个基准数据集上,Fastformer 在长文本建模任务中的表现与标准 Transformer 相当或更优。
  • 该模型在效率方面表现卓越,尤其在长序列上,且未牺牲准确性。
  • 加法注意力机制实现了有效的全局上下文编码,同时避免了完整自注意力的二次方开销。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。