[论文解读] Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention
论文介绍了线性变换器,用基于核的线性注意力替代 softmax 注意力,使时间/内存复杂度为 O(N),并实现自回归推断,速度比传统变换器快数千倍,同时性能保持接近 vanilla 变换器。
Transformers achieve remarkable performance in several tasks but due to their quadratic complexity, with respect to the input's length, they are prohibitively slow for very long sequences. To address this limitation, we express the self-attention as a linear dot-product of kernel feature maps and make use of the associativity property of matrix products to reduce the complexity from $\\mathcal{O}\\left(N^2\ ight)$ to $\\mathcal{O}\\left(N\ ight)$, where $N$ is the sequence length. We show that this formulation permits an iterative implementation that dramatically accelerates autoregressive transformers and reveals their relationship to recurrent neural networks. Our linear transformers achieve similar performance to vanilla transformers and they are up to 4000x faster on autoregressive prediction of very long sequences.
研究动机与目标
- 为长序列中自注意力的二次复杂度提供动机与解决方案。
- 提出使用核特征映射的线性注意力表述以降低复杂度。
- 展示带因果屏蔽的线性注意力并推导用于高效自回归推理的 RNN 风格递推。
- 在图像生成和语音识别任务上对比基线进行经验验证。
提出的方法
- 将自注意力重新表述为核化点积,特征映射为 phi,使得 V' = (phi(Q) (phi(K)^T V)) / (phi(Q)^T sum_j phi(K_j))。
- 利用结合律计算和 S = sum_j phi(K_j) V_j^T 与 Z = sum_j phi(K_j) 的所有查询,从而实现前向传播的 O(N) 时间。
- 引入带增量更新的因果屏蔽,使 S_i 与 Z_i 的线性时间和常量内存适用于自回归生成。
- 给出带因果屏蔽的变换器层的 RNN-like 视角,具有注意力记忆 s 和归一化记忆 z,以及两步更新。
实验结果
研究问题
- RQ1变换器中的自注意力是否可以重新表述为实现线性 (O(N)) 时间和内存,而不牺牲性能?
- RQ2带正相似度函数的核基线线性注意力是否能够实现与 softmax 注意力相比的有效自回归推理?
- RQ3带因果屏蔽的变换器层是否可以被解释为 RNN,从而实现高效的顺序生成?
- RQ4使用线性注意力与标准变换器和 Reformer 相比,在长序列任务(图像生成、语音识别)中准确性与速度的权衡是什么?
- RQ5在线性注意力用于自回归任务的训练与推理条件下,性能如何表现?
主要发现
- 线性变换器在自回归对长序列的预测中可达到接近于普通变换器的性能,同时速度快多达 4000x。
- 线性注意力的内存和时间随序列长度线性增长,而 softmax 注意力的增长为二次。
- 在 MNIST、CIFAR-10、WSJ 的实验中,线性变换器在比特/维或 PER 等指标上具有竞争力,同时吞吐量显著提高、内存占用更低。
- 通过维持并更新内部状态 (S_i, Z_i),可实现带线性注意力的自回归推断的常量每步成本。
- 该工作通过对注意力记忆给出类似 RNN 的递推,建立了带因果屏蔽的变换器与循环神经网络之间的理论联系。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。