[论文解读] Compressive Transformers for Long-Range Sequence Modelling
Compressive Transformer通过对过去激活进行压缩,扩展Transformer的记忆,在Enwik8和WikiText-103上实现了最先进的困惑度/bpc,并提出PG-19作为长距离语言模型基准。
We present the Compressive Transformer, an attentive sequence model which compresses past memories for long-range sequence learning. We find the Compressive Transformer obtains state-of-the-art language modelling results in the WikiText-103 and Enwik8 benchmarks, achieving 17.1 ppl and 0.97 bpc respectively. We also find it can model high-frequency speech effectively and can be used as a memory mechanism for RL, demonstrated on an object matching task. To promote the domain of long-range sequence learning, we propose a new open-vocabulary language modelling benchmark derived from books, PG-19.
研究动机与目标
- 通过模仿有损的人类记忆压缩来激发对长距离序列建模的兴趣。
- 提出一种带记忆增强的Transformer,将过去的激活压缩成一个压缩记忆。
- 在字符级和词级语言建模基准上展示最先进的性能。
- 展示对高频语音建模和强化学习记忆任务的适用性。
- 引入PG-19,一个书籍规模的开放词汇语言建模基准。
提出的方法
- 在Transformer中扩展过去激活的记忆(memory)和第二个、压缩的记忆(compressed memories)。
- 在每一层通过多头注意力同时对当前记忆和压缩记忆进行注意。
- 使用压缩函数f_c对最早存储的记忆进行压缩,以形成新的压缩记忆。
- 在任务目标(基于注意力的语言建模)同时训练一个压缩目标(例如注意力重建或自编码)。
- 分析时间范围和注意力使用,以在可比计算下显示扩展的上下文。
- 在Enwik8、WikiText-103、语音和强化学习上进行实验,并加上PG-19基准。
实验结果
研究问题
- RQ1能否在不牺牲可观计算成本的前提下,利用压缩记忆扩展Transformer的有效时间范围?
- RQ2不同的压缩函数和辅助损失如何影响长距离语言建模的性能?
- RQ3当记忆与压缩结合时,在字符级和词级基准上的性能提升如何?
- RQ4该方法是否适用于语音建模和强化学习的记忆任务?
- RQ5PG-19是否为未来模型提供有意义的长距离基准?
主要发现
| 模型 | BPC |
|---|---|
| 24L TransformerXL (ours) | 0.99 |
| 24L Compressive Transformer | 0.97 |
- 在24层的Compressive Transformer上实现0.97 bits-per-character,超越此前的最先进水平。
- 在WikiText-103上达到17.1 perplexity(18L TXL基线18.3;18L Compressive Transformer 17.1)。
- 在PG-19上,Compressive Transformer达到33.6 perplexity(有效集;TransformerXL(36L)为36.3)。
- 模型在处理罕见词时表现更好(在罕见词桶中有显著提升)。
- 展示了对语音建模的竞争力,以及作为记忆组件在用于记忆任务的IMPALA RL代理中的成功应用。
- 提供PG-19作为一个开放词汇、书籍规模的长距离语言建模基准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。