Skip to main content
QUICK REVIEW

[论文解读] Dynamic Evaluation of Transformer Language Models

Ben Krause, Emmanuel Kahembwe|arXiv (Cornell University)|Apr 17, 2019
Topic Modeling参考文献 20被引用 32
一句话总结

本文将动态评估应用于 Transformer-XL 模型,通过适应最近的序列历史,在 enwik8、text8 和 WikiText-103 上实现了最先进的结果。

ABSTRACT

This research note combines two methods that have recently improved the state of the art in language modeling: Transformers and dynamic evaluation. Transformers use stacked layers of self-attention that allow them to capture long range dependencies in sequential data. Dynamic evaluation fits models to the recent sequence history, allowing them to assign higher probabilities to re-occurring sequential patterns. By applying dynamic evaluation to Transformer-XL models, we improve the state of the art on enwik8 from 0.99 to 0.94 bits/char, text8 from 1.08 to 1.04 bits/char, and WikiText-103 from 18.3 to 16.4 perplexity points.

研究动机与目标

  • 将 Transformer 与动态评估结合以利用长程依赖性作为动机。
  • 研究动态评估是否为 Transformer-XL 模型提供额外收益。
  • 在字符级和词级语言建模基准上衡量改进。
  • 分析自适应如何与 Transformer-XL 的内存增强注意力交互。

提出的方法

  • 在序列段级应用基于梯度下降的动态评估到 Transformer-XL。
  • 比较两种动态评估优化器:基于 SGD 的动态评估和带衰减的 RMSprop 风格动态评估。
  • 将动态评估段与 Transformer-XL 的内存段对齐,并将反向传播截断到单个段。
  • 在测试前在验证集上调优动态评估超参数。

实验结果

研究问题

  • RQ1将动态评估应用于 Transformer-XL 时,是否能提供超出静态评估所达到的额外收益?
  • RQ2基于 SGD 的动态评估与带衰减的 RMS 动态评估在长期依赖基准上有何比较?
  • RQ3在使用 Transformer-XL 时,动态评估对字符级基准(enwik8、text8)和词级基准(WikiText-103)的影响是什么?
  • RQ4自适应如何与 Transformer-XL 的内存/缓存机制交互?

主要发现

  • 动态评估将 Transformer-XL 在 enwik8 上的比特/字符从 0.993 提升到 0.940(RMS 动态评估 + 衰减)。
  • 动态评估将 Transformer-XL 在 text8 上的比特/字符从 1.085 提升到 1.038(RMS 动态评估 + 衰减)。
  • 动态评估将 Transformer-XL 在 WikiText-103 上的困惑度从 18.1 提升到 16.4(RMS 动态评估)。
  • 自适应 Softmax 配合动态评估在测试设置下给出最常报道的词级困惑度(16.4)。
  • 相对于较弱模型所见的增益,动态评估的改进存在但较小,表明 Transformer-XL 已经捕捉了许多重复出现的模式。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。