[论文解读] Reformer: The Efficient Transformer
Reformer 引入可逆层、分块前馈和局部敏感哈希注意力,以减少内存和计算,在长序列上实现接近 Transformer 的性能,同时显著提升效率。
Large Transformer models routinely achieve state-of-the-art results on a number of tasks but training these models can be prohibitively costly, especially on long sequences. We introduce two techniques to improve the efficiency of Transformers. For one, we replace dot-product attention by one that uses locality-sensitive hashing, changing its complexity from O($L^2$) to O($L\log L$), where $L$ is the length of the sequence. Furthermore, we use reversible residual layers instead of the standard residuals, which allows storing activations only once in the training process instead of $N$ times, where $N$ is the number of layers. The resulting model, the Reformer, performs on par with Transformer models while being much more memory-efficient and much faster on long sequences.
研究动机与目标
- 在长序列上动机高内存和计算成本的原因。
- 提出架构和技术以在保持性能的同时降低内存与计算。
- 在长序列任务和标准基准上进行经验验证,以展示效率提升。
- 评估共享 QK 注意力、可逆层和 LSH 注意力对训练动态和准确性的影响。
提出的方法
- 用局部敏感哈希(LSH)注意力替代点积注意力,将注意力复杂度从 O(L^2) 降至 O(L log L)。
- 使用可逆残差层以避免为每一层存储激活,消除网络深度引起的 N 次记忆增长。
- 将前馈层分块,以通过分块处理激活来降低内存使用。
- 采用共享 QK 注意力以简化投影路径,并分析其对性能的影响。
- 采用多轮哈希以提高 LSH 注意力的准确性并减轻桶碰撞。
- 提供理论上的内存/时间复杂度对比以及在各任务上的经验消融。
实验结果
研究问题
- RQ1可逆层在减少内存使用的同时是否能保留 Transformer 的性能?
- RQ2基于 LSH 的注意力是否足以逼近完整注意力以适用于长序列,且哈希参数如何影响准确性?
- RQ3共享 QK 注意力和分块前馈对训练动态和效率有何影响?
- RQ4相对于标准 Transformer,Reformer 在非常长的序列上有哪些实际的内存和速度优势?
主要发现
- 可逆 Transformer 在显著降低内存使用的同时与标准 Transformer 的性能相当,并能支持更深的模型。
- 共享 QK 注意力对性能没有负面影响,甚至在 enwik8 上能加快训练速度。
- LSH 注意力随着哈希轮数增加,逐渐接近完整注意力(例如轮数越高,结果越接近完整注意力)。
- 将前馈层分块在不改变数值等价性的前提下减少内存,且对相同参数的 Transformer 等价性保持。
- Reformer 使在长序列上能够训练更大且内存高效的模型(例如在 12–20 层配置),并在诸如 enwik8 和 imagenet-64 这样的长上下文任务中表现出更快的训练和内存节省。
- 在 WMT14 英语-德语翻译中,可逆 Transformer 在不同配置下实现了具有竞争力的 BLEU 分数,例如基础可逆模型 BLEU 27.6(sacreBLEU 27.4)和大规模可逆模型 BLEU 29.1(sacreBLEU 28.4)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。