Skip to main content
QUICK REVIEW

[论文解读] Compressive Transformers for Long-Range Sequence Modelling

Jack W. Rae, Anna Potapenko|arXiv (Cornell University)|Nov 13, 2019
Topic Modeling参考文献 45被引用 49
一句话总结

Compressive Transformer通过对过去激活进行压缩,扩展Transformer的记忆,在Enwik8和WikiText-103上实现了最先进的困惑度/bpc,并提出PG-19作为长距离语言模型基准。

ABSTRACT

We present the Compressive Transformer, an attentive sequence model which compresses past memories for long-range sequence learning. We find the Compressive Transformer obtains state-of-the-art language modelling results in the WikiText-103 and Enwik8 benchmarks, achieving 17.1 ppl and 0.97 bpc respectively. We also find it can model high-frequency speech effectively and can be used as a memory mechanism for RL, demonstrated on an object matching task. To promote the domain of long-range sequence learning, we propose a new open-vocabulary language modelling benchmark derived from books, PG-19.

研究动机与目标

  • 通过模仿有损的人类记忆压缩来激发对长距离序列建模的兴趣。
  • 提出一种带记忆增强的Transformer,将过去的激活压缩成一个压缩记忆。
  • 在字符级和词级语言建模基准上展示最先进的性能。
  • 展示对高频语音建模和强化学习记忆任务的适用性。
  • 引入PG-19,一个书籍规模的开放词汇语言建模基准。

提出的方法

  • 在Transformer中扩展过去激活的记忆(memory)和第二个、压缩的记忆(compressed memories)。
  • 在每一层通过多头注意力同时对当前记忆和压缩记忆进行注意。
  • 使用压缩函数f_c对最早存储的记忆进行压缩,以形成新的压缩记忆。
  • 在任务目标(基于注意力的语言建模)同时训练一个压缩目标(例如注意力重建或自编码)。
  • 分析时间范围和注意力使用,以在可比计算下显示扩展的上下文。
  • 在Enwik8、WikiText-103、语音和强化学习上进行实验,并加上PG-19基准。

实验结果

研究问题

  • RQ1能否在不牺牲可观计算成本的前提下,利用压缩记忆扩展Transformer的有效时间范围?
  • RQ2不同的压缩函数和辅助损失如何影响长距离语言建模的性能?
  • RQ3当记忆与压缩结合时,在字符级和词级基准上的性能提升如何?
  • RQ4该方法是否适用于语音建模和强化学习的记忆任务?
  • RQ5PG-19是否为未来模型提供有意义的长距离基准?

主要发现

模型BPC
24L TransformerXL (ours)0.99
24L Compressive Transformer0.97
  • 在24层的Compressive Transformer上实现0.97 bits-per-character,超越此前的最先进水平。
  • 在WikiText-103上达到17.1 perplexity(18L TXL基线18.3;18L Compressive Transformer 17.1)。
  • 在PG-19上,Compressive Transformer达到33.6 perplexity(有效集;TransformerXL(36L)为36.3)。
  • 模型在处理罕见词时表现更好(在罕见词桶中有显著提升)。
  • 展示了对语音建模的竞争力,以及作为记忆组件在用于记忆任务的IMPALA RL代理中的成功应用。
  • 提供PG-19作为一个开放词汇、书籍规模的长距离语言建模基准。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。