QUICK REVIEW

[论文解读] Reformer: The Efficient Transformer

Nikita Kitaev, Łukasz Kaiser|arXiv (Cornell University)|Jan 13, 2020

Advanced Image and Video Retrieval Techniques参考文献 18被引用 323

一句话总结

Reformer 引入可逆层、分块前馈和局部敏感哈希注意力，以减少内存和计算，在长序列上实现接近 Transformer 的性能，同时显著提升效率。

ABSTRACT

Large Transformer models routinely achieve state-of-the-art results on a number of tasks but training these models can be prohibitively costly, especially on long sequences. We introduce two techniques to improve the efficiency of Transformers. For one, we replace dot-product attention by one that uses locality-sensitive hashing, changing its complexity from O($L^2$) to O($L\log L$), where $L$ is the length of the sequence. Furthermore, we use reversible residual layers instead of the standard residuals, which allows storing activations only once in the training process instead of $N$ times, where $N$ is the number of layers. The resulting model, the Reformer, performs on par with Transformer models while being much more memory-efficient and much faster on long sequences.

研究动机与目标

在长序列上动机高内存和计算成本的原因。
提出架构和技术以在保持性能的同时降低内存与计算。
在长序列任务和标准基准上进行经验验证，以展示效率提升。
评估共享 QK 注意力、可逆层和 LSH 注意力对训练动态和准确性的影响。

提出的方法

用局部敏感哈希（LSH）注意力替代点积注意力，将注意力复杂度从 O(L^2) 降至 O(L log L)。
使用可逆残差层以避免为每一层存储激活，消除网络深度引起的 N 次记忆增长。
将前馈层分块，以通过分块处理激活来降低内存使用。
采用共享 QK 注意力以简化投影路径，并分析其对性能的影响。
采用多轮哈希以提高 LSH 注意力的准确性并减轻桶碰撞。
提供理论上的内存/时间复杂度对比以及在各任务上的经验消融。

实验结果

研究问题

RQ1可逆层在减少内存使用的同时是否能保留 Transformer 的性能？
RQ2基于 LSH 的注意力是否足以逼近完整注意力以适用于长序列，且哈希参数如何影响准确性？
RQ3共享 QK 注意力和分块前馈对训练动态和效率有何影响？
RQ4相对于标准 Transformer，Reformer 在非常长的序列上有哪些实际的内存和速度优势？

主要发现

可逆 Transformer 在显著降低内存使用的同时与标准 Transformer 的性能相当，并能支持更深的模型。
共享 QK 注意力对性能没有负面影响，甚至在 enwik8 上能加快训练速度。
LSH 注意力随着哈希轮数增加，逐渐接近完整注意力（例如轮数越高，结果越接近完整注意力）。
将前馈层分块在不改变数值等价性的前提下减少内存，且对相同参数的 Transformer 等价性保持。
Reformer 使在长序列上能够训练更大且内存高效的模型（例如在 12–20 层配置），并在诸如 enwik8 和 imagenet-64 这样的长上下文任务中表现出更快的训练和内存节省。
在 WMT14 英语-德语翻译中，可逆 Transformer 在不同配置下实现了具有竞争力的 BLEU 分数，例如基础可逆模型 BLEU 27.6（sacreBLEU 27.4）和大规模可逆模型 BLEU 29.1（sacreBLEU 28.4）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。