Skip to main content
QUICK REVIEW

[论文解读] Exploring the Limits of Language Modeling

Rafał Józefowicz, Oriol Vinyals|arXiv (Cornell University)|Feb 7, 2016
Topic Modeling参考文献 51被引用 915
一句话总结

本论文在 One Billion Word Benchmark 上训练极大规模的基于 LSTM 的语言模型,提出基于 CNN 的 Softmax 与逐字符嵌入,以显著减少参数量和困惑度,并在单模型与集成模型上实现了与现有方法相比的最先进结果。

ABSTRACT

In this work we explore recent advances in Recurrent Neural Networks for large scale Language Modeling, a task central to language understanding. We extend current models to deal with two key challenges present in this task: corpora and vocabulary sizes, and complex, long term structure of language. We perform an exhaustive study on techniques such as character Convolutional Neural Networks or Long-Short Term Memory, on the One Billion Word Benchmark. Our best single model significantly improves state-of-the-art perplexity from 51.3 down to 30.0 (whilst reducing the number of parameters by a factor of 20), while an ensemble of models sets a new record by improving perplexity from 41.0 down to 23.7. We also release these models for the NLP and ML community to study and improve upon.

研究动机与目标

  • 以 One Billion Word Benchmark 为评估基准,推动并研究超越 PTB 的大规模语言建模。
  • 通过结构创新(带投影的 LSTM、dropout、基于 CNN 的嵌入)在减少参数量的同时改善困惑度。
  • 通过基于采样的损失和正则化策略,研究训练时效性和数据效率。
  • 提供开源模型和训练方案,加速大规模语言模型的研究。

提出的方法

  • 使用具有投影/瓶颈层的大规模循环神经网络(LSTM)。
  • 引入基于 CNN 的词嵌入和基于 CNN 的 Softmax(eW = CNN(chars_w)),以减少参数量。
  • 使用重要性采样(IS)损失作为全 Softmax 的高效替代,并将其与对比噪声估计(NCE)联系起来。
  • 将词级模型与字符级 LSTM 预测器(Char LSTM)结合,作为一种混合方式来处理长尾词和未知词。
  • 在非递归连接上使用 dropout、进行大批量异步 GPU 训练,并采用 AdaGrad 优化。
  • 使用 1B Word Benchmark 的数据进行实验,并发布模型/训练方案。

实验结果

研究问题

  • RQ1是否能够将基于 LSTM 的语言模型扩展到极大词汇表和数据集,同时保持甚至提升困惑度?
  • RQ2字符级嵌入和基于 CNN 的 Softmax 是否在不牺牲性能的情况下降低参数量?
  • RQ3IS 和 NCE 损失在训练大规模语言模型时的比较如何,IS 是否具有数据效率?
  • RQ4模型规模、正则化和集成方法对困惑度和尾部单词表现的影响是什么?
  • RQ5基于 CNN 的和混合词-字符方法是否更擅长处理 OOV 单词以及多语言/形态丰富文本?

主要发现

模型测试困惑度参数数量 [十亿]
Sigmoid-RNN-2048 ( Ji et al., 2015a )68.34.1
Interpolated KN 5-gram, 1.1B n-grams ( Chelba et al., 2013 )67.61.76
Sparse Non-Negative Matrix LM ( Shazeer et al., 2015 )52.933
RNN-1024 + MaxEnt 9-gram features ( Chelba et al., 2013 )51.320
LSTM-512-51254.10.82
LSTM-1024-51248.20.82
LSTM-2048-51243.70.83
LSTM-8192-2048 (No Dropout)37.93.3
LSTM-8192-2048 (50% Dropout)32.23.3
2-Layer LSTM-8192-1024 (BIG LSTM)30.61.8
BIG LSTM+CNN Inputs30.01.04
BIG LSTM+CNN Inputs + CNN Softmax39.80.29
BIG LSTM+CNN Inputs + CNN Softmax + 128-dim correction35.80.39
BIG LSTM+CNN Inputs + Char LSTM predictions47.90.23
  • 单一最佳模型在 1.04B 参数下达到困惑度 30.0(BIG LSTM+CNN Inputs)。
  • 带有 128 维纠正的 CNN Softmax 提升了性能,在 0.39B 参数下达到困惑度 35.8。
  • 字符 CNN 嵌入将输入层参数减少约 11 倍(72M 对 820M),同时保持有竞争力的性能。
  • IS 损失在训练速度和最终困惑度方面优于 NCE,适用于大规模语言模型。
  • 由 10 个 LSTM 的集成以及补充组件达到 23.7 的困惑度,相较于以往工作有很大提升。
  • 尾部单词的建模效果显示 LSTM 优于 KN-5,如对数概率分析所示。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。