[论文解读] Dynamic Evaluation of Transformer Language Models
本文将动态评估应用于 Transformer-XL 模型,通过适应最近的序列历史,在 enwik8、text8 和 WikiText-103 上实现了最先进的结果。
This research note combines two methods that have recently improved the state of the art in language modeling: Transformers and dynamic evaluation. Transformers use stacked layers of self-attention that allow them to capture long range dependencies in sequential data. Dynamic evaluation fits models to the recent sequence history, allowing them to assign higher probabilities to re-occurring sequential patterns. By applying dynamic evaluation to Transformer-XL models, we improve the state of the art on enwik8 from 0.99 to 0.94 bits/char, text8 from 1.08 to 1.04 bits/char, and WikiText-103 from 18.3 to 16.4 perplexity points.
研究动机与目标
- 将 Transformer 与动态评估结合以利用长程依赖性作为动机。
- 研究动态评估是否为 Transformer-XL 模型提供额外收益。
- 在字符级和词级语言建模基准上衡量改进。
- 分析自适应如何与 Transformer-XL 的内存增强注意力交互。
提出的方法
- 在序列段级应用基于梯度下降的动态评估到 Transformer-XL。
- 比较两种动态评估优化器:基于 SGD 的动态评估和带衰减的 RMSprop 风格动态评估。
- 将动态评估段与 Transformer-XL 的内存段对齐,并将反向传播截断到单个段。
- 在测试前在验证集上调优动态评估超参数。
实验结果
研究问题
- RQ1将动态评估应用于 Transformer-XL 时,是否能提供超出静态评估所达到的额外收益?
- RQ2基于 SGD 的动态评估与带衰减的 RMS 动态评估在长期依赖基准上有何比较?
- RQ3在使用 Transformer-XL 时,动态评估对字符级基准(enwik8、text8)和词级基准(WikiText-103)的影响是什么?
- RQ4自适应如何与 Transformer-XL 的内存/缓存机制交互?
主要发现
- 动态评估将 Transformer-XL 在 enwik8 上的比特/字符从 0.993 提升到 0.940(RMS 动态评估 + 衰减)。
- 动态评估将 Transformer-XL 在 text8 上的比特/字符从 1.085 提升到 1.038(RMS 动态评估 + 衰减)。
- 动态评估将 Transformer-XL 在 WikiText-103 上的困惑度从 18.1 提升到 16.4(RMS 动态评估)。
- 自适应 Softmax 配合动态评估在测试设置下给出最常报道的词级困惑度(16.4)。
- 相对于较弱模型所见的增益,动态评估的改进存在但较小,表明 Transformer-XL 已经捕捉了许多重复出现的模式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。