QUICK REVIEW

[论文解读] Compressive Transformers for Long-Range Sequence Modelling

Jack W. Rae, Anna Potapenko|arXiv (Cornell University)|Nov 13, 2019

Topic Modeling参考文献 45被引用 49

一句话总结

Compressive Transformer通过对过去激活进行压缩，扩展Transformer的记忆，在Enwik8和WikiText-103上实现了最先进的困惑度/bpc，并提出PG-19作为长距离语言模型基准。

ABSTRACT

We present the Compressive Transformer, an attentive sequence model which compresses past memories for long-range sequence learning. We find the Compressive Transformer obtains state-of-the-art language modelling results in the WikiText-103 and Enwik8 benchmarks, achieving 17.1 ppl and 0.97 bpc respectively. We also find it can model high-frequency speech effectively and can be used as a memory mechanism for RL, demonstrated on an object matching task. To promote the domain of long-range sequence learning, we propose a new open-vocabulary language modelling benchmark derived from books, PG-19.

研究动机与目标

通过模仿有损的人类记忆压缩来激发对长距离序列建模的兴趣。
提出一种带记忆增强的Transformer，将过去的激活压缩成一个压缩记忆。
在字符级和词级语言建模基准上展示最先进的性能。
展示对高频语音建模和强化学习记忆任务的适用性。
引入PG-19，一个书籍规模的开放词汇语言建模基准。

提出的方法

在Transformer中扩展过去激活的记忆（memory）和第二个、压缩的记忆（compressed memories）。
在每一层通过多头注意力同时对当前记忆和压缩记忆进行注意。
使用压缩函数f_c对最早存储的记忆进行压缩，以形成新的压缩记忆。
在任务目标（基于注意力的语言建模）同时训练一个压缩目标（例如注意力重建或自编码）。
分析时间范围和注意力使用，以在可比计算下显示扩展的上下文。
在Enwik8、WikiText-103、语音和强化学习上进行实验，并加上PG-19基准。

实验结果

研究问题

RQ1能否在不牺牲可观计算成本的前提下，利用压缩记忆扩展Transformer的有效时间范围？
RQ2不同的压缩函数和辅助损失如何影响长距离语言建模的性能？
RQ3当记忆与压缩结合时，在字符级和词级基准上的性能提升如何？
RQ4该方法是否适用于语音建模和强化学习的记忆任务？
RQ5PG-19是否为未来模型提供有意义的长距离基准？

主要发现

模型	BPC
24L TransformerXL (ours)	0.99
24L Compressive Transformer	0.97

在24层的Compressive Transformer上实现0.97 bits-per-character，超越此前的最先进水平。
在WikiText-103上达到17.1 perplexity（18L TXL基线18.3；18L Compressive Transformer 17.1）。
在PG-19上，Compressive Transformer达到33.6 perplexity（有效集；TransformerXL（36L）为36.3）。
模型在处理罕见词时表现更好（在罕见词桶中有显著提升）。
展示了对语音建模的竞争力，以及作为记忆组件在用于记忆任务的IMPALA RL代理中的成功应用。
提供PG-19作为一个开放词汇、书籍规模的长距离语言建模基准。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。