[论文解读] Fastformer: Additive Attention Can Be All You Need
Fastformer 提出了一种高效的 Transformer 变体,使用加法注意力来汇总全局上下文,并实现与键和值的线性时间交互,在降低复杂度的同时在长序列建模中具有竞争力。
Transformer is a powerful model for text understanding. However, it is inefficient due to its quadratic complexity to input sequence length. Although there are many methods on Transformer acceleration, they are still either inefficient on long sequences or not effective enough. In this paper, we propose Fastformer, which is an efficient Transformer model based on additive attention. In Fastformer, instead of modeling the pair-wise interactions between tokens, we first use additive attention mechanism to model global contexts, and then further transform each token representation based on its interaction with global context representations. In this way, Fastformer can achieve effective context modeling with linear complexity. Extensive experiments on five datasets show that Fastformer is much more efficient than many existing Transformer models and can meanwhile achieve comparable or even better long text modeling performance.
研究动机与目标
- 由于自注意力的平方复杂度,动机是需要高效的长序列 Transformer。
- 提出 Fastformer,一种基于加法注意力的架构,实现线性时间的上下文建模。
- 展示 Fastformer 在分类、推荐和摘要任务中的效率与具有竞争力的准确性。
- 提供对交互函数和参数共享的分析,以指导实际部署。
提出的方法
- 通过每个注意力头的三次线性投影将输入嵌入转换为 Q、K、V。
- 用加法注意力对查询矩阵进行汇总,得到全局查询向量 q。
- 通过逐元素乘积 q * k_i 计算与每个键的交互,形成 p_i ,再用加法注意力对 p_i 进行汇总以得到全局键 k。
- 通过逐元素乘积 k * v_i 计算全局键与每个值的交互,随后线性投影得到 r_i。
- 将变换后的 r_i 加回到原始查询 q 以形成输出;堆叠头部并可选择共享参数以减少内存。
实验结果
研究问题
- RQ1基于加法注意力的全局上下文建模能否在序列长度线性扩展的同时保持性能?
- RQ2全局上下文与每个令牌表示之间的逐元素乘积交互是否比加法/拼接方法更能提升上下文建模?
- RQ3参数共享策略对 Fastformer 的速度、内存和准确率有多大影响?
- RQ4与其他高效 Transformer 相比,Fastformer 在情感/主题分类、新闻推荐和文本摘要任务中的表现如何?
主要发现
- Fastformer 实现线性时间复杂度 O(N·d) 相较于标准 Transformer 的平方复杂度 O(N^2·d)。
- Fastformer 在 Amazon、IMDB 和 MIND 任务上获得具竞争力或更高的准确率和 macro-F 分数,相较于若干高效 Transformer。
- 在新闻推荐中,Fastformer 超越若干基线,并从 PLM-NR 集成中获益,集成在 MIND 榜单上达到顶级结果。
- 在文本摘要方面,Fastformer 产生具有竞争力的 ROUGE 分数,通常优于其他线性或稀疏注意力变体。
- 与原始 Transformer 相比,Fastformer 在训练和推理上提供了显著的加速,同时保持较强的性能。
- 通过逐元素乘积对交互进行抽象优于加法/拼接,可获得更丰富的上下文建模。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。