QUICK REVIEW

[论文解读] Dynamic Evaluation of Transformer Language Models

Ben Krause, Emmanuel Kahembwe|arXiv (Cornell University)|Apr 17, 2019

Topic Modeling参考文献 20被引用 32

一句话总结

本文将动态评估应用于 Transformer-XL 模型，通过适应最近的序列历史，在 enwik8、text8 和 WikiText-103 上实现了最先进的结果。

ABSTRACT

This research note combines two methods that have recently improved the state of the art in language modeling: Transformers and dynamic evaluation. Transformers use stacked layers of self-attention that allow them to capture long range dependencies in sequential data. Dynamic evaluation fits models to the recent sequence history, allowing them to assign higher probabilities to re-occurring sequential patterns. By applying dynamic evaluation to Transformer-XL models, we improve the state of the art on enwik8 from 0.99 to 0.94 bits/char, text8 from 1.08 to 1.04 bits/char, and WikiText-103 from 18.3 to 16.4 perplexity points.

研究动机与目标

将 Transformer 与动态评估结合以利用长程依赖性作为动机。
研究动态评估是否为 Transformer-XL 模型提供额外收益。
在字符级和词级语言建模基准上衡量改进。
分析自适应如何与 Transformer-XL 的内存增强注意力交互。

提出的方法

在序列段级应用基于梯度下降的动态评估到 Transformer-XL。
比较两种动态评估优化器：基于 SGD 的动态评估和带衰减的 RMSprop 风格动态评估。
将动态评估段与 Transformer-XL 的内存段对齐，并将反向传播截断到单个段。
在测试前在验证集上调优动态评估超参数。

实验结果

研究问题

RQ1将动态评估应用于 Transformer-XL 时，是否能提供超出静态评估所达到的额外收益？
RQ2基于 SGD 的动态评估与带衰减的 RMS 动态评估在长期依赖基准上有何比较？
RQ3在使用 Transformer-XL 时，动态评估对字符级基准（enwik8、text8）和词级基准（WikiText-103）的影响是什么？
RQ4自适应如何与 Transformer-XL 的内存/缓存机制交互？

主要发现

动态评估将 Transformer-XL 在 enwik8 上的比特/字符从 0.993 提升到 0.940（RMS 动态评估 + 衰减）。
动态评估将 Transformer-XL 在 text8 上的比特/字符从 1.085 提升到 1.038（RMS 动态评估 + 衰减）。
动态评估将 Transformer-XL 在 WikiText-103 上的困惑度从 18.1 提升到 16.4（RMS 动态评估）。
自适应 Softmax 配合动态评估在测试设置下给出最常报道的词级困惑度（16.4）。
相对于较弱模型所见的增益，动态评估的改进存在但较小，表明 Transformer-XL 已经捕捉了许多重复出现的模式。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。