[论文解读] Exploring the Limits of Language Modeling
本论文在 One Billion Word Benchmark 上训练极大规模的基于 LSTM 的语言模型,提出基于 CNN 的 Softmax 与逐字符嵌入,以显著减少参数量和困惑度,并在单模型与集成模型上实现了与现有方法相比的最先进结果。
In this work we explore recent advances in Recurrent Neural Networks for large scale Language Modeling, a task central to language understanding. We extend current models to deal with two key challenges present in this task: corpora and vocabulary sizes, and complex, long term structure of language. We perform an exhaustive study on techniques such as character Convolutional Neural Networks or Long-Short Term Memory, on the One Billion Word Benchmark. Our best single model significantly improves state-of-the-art perplexity from 51.3 down to 30.0 (whilst reducing the number of parameters by a factor of 20), while an ensemble of models sets a new record by improving perplexity from 41.0 down to 23.7. We also release these models for the NLP and ML community to study and improve upon.
研究动机与目标
- 以 One Billion Word Benchmark 为评估基准,推动并研究超越 PTB 的大规模语言建模。
- 通过结构创新(带投影的 LSTM、dropout、基于 CNN 的嵌入)在减少参数量的同时改善困惑度。
- 通过基于采样的损失和正则化策略,研究训练时效性和数据效率。
- 提供开源模型和训练方案,加速大规模语言模型的研究。
提出的方法
- 使用具有投影/瓶颈层的大规模循环神经网络(LSTM)。
- 引入基于 CNN 的词嵌入和基于 CNN 的 Softmax(eW = CNN(chars_w)),以减少参数量。
- 使用重要性采样(IS)损失作为全 Softmax 的高效替代,并将其与对比噪声估计(NCE)联系起来。
- 将词级模型与字符级 LSTM 预测器(Char LSTM)结合,作为一种混合方式来处理长尾词和未知词。
- 在非递归连接上使用 dropout、进行大批量异步 GPU 训练,并采用 AdaGrad 优化。
- 使用 1B Word Benchmark 的数据进行实验,并发布模型/训练方案。
实验结果
研究问题
- RQ1是否能够将基于 LSTM 的语言模型扩展到极大词汇表和数据集,同时保持甚至提升困惑度?
- RQ2字符级嵌入和基于 CNN 的 Softmax 是否在不牺牲性能的情况下降低参数量?
- RQ3IS 和 NCE 损失在训练大规模语言模型时的比较如何,IS 是否具有数据效率?
- RQ4模型规模、正则化和集成方法对困惑度和尾部单词表现的影响是什么?
- RQ5基于 CNN 的和混合词-字符方法是否更擅长处理 OOV 单词以及多语言/形态丰富文本?
主要发现
| 模型 | 测试困惑度 | 参数数量 [十亿] |
|---|---|---|
| Sigmoid-RNN-2048 ( Ji et al., 2015a ) | 68.3 | 4.1 |
| Interpolated KN 5-gram, 1.1B n-grams ( Chelba et al., 2013 ) | 67.6 | 1.76 |
| Sparse Non-Negative Matrix LM ( Shazeer et al., 2015 ) | 52.9 | 33 |
| RNN-1024 + MaxEnt 9-gram features ( Chelba et al., 2013 ) | 51.3 | 20 |
| LSTM-512-512 | 54.1 | 0.82 |
| LSTM-1024-512 | 48.2 | 0.82 |
| LSTM-2048-512 | 43.7 | 0.83 |
| LSTM-8192-2048 (No Dropout) | 37.9 | 3.3 |
| LSTM-8192-2048 (50% Dropout) | 32.2 | 3.3 |
| 2-Layer LSTM-8192-1024 (BIG LSTM) | 30.6 | 1.8 |
| BIG LSTM+CNN Inputs | 30.0 | 1.04 |
| BIG LSTM+CNN Inputs + CNN Softmax | 39.8 | 0.29 |
| BIG LSTM+CNN Inputs + CNN Softmax + 128-dim correction | 35.8 | 0.39 |
| BIG LSTM+CNN Inputs + Char LSTM predictions | 47.9 | 0.23 |
- 单一最佳模型在 1.04B 参数下达到困惑度 30.0(BIG LSTM+CNN Inputs)。
- 带有 128 维纠正的 CNN Softmax 提升了性能,在 0.39B 参数下达到困惑度 35.8。
- 字符 CNN 嵌入将输入层参数减少约 11 倍(72M 对 820M),同时保持有竞争力的性能。
- IS 损失在训练速度和最终困惑度方面优于 NCE,适用于大规模语言模型。
- 由 10 个 LSTM 的集成以及补充组件达到 23.7 的困惑度,相较于以往工作有很大提升。
- 尾部单词的建模效果显示 LSTM 优于 KN-5,如对数概率分析所示。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。