QUICK REVIEW

[论文解读] Exploring the Limits of Language Modeling

Rafał Józefowicz, Oriol Vinyals|arXiv (Cornell University)|Feb 7, 2016

Topic Modeling参考文献 51被引用 915

一句话总结

本论文在 One Billion Word Benchmark 上训练极大规模的基于 LSTM 的语言模型，提出基于 CNN 的 Softmax 与逐字符嵌入，以显著减少参数量和困惑度，并在单模型与集成模型上实现了与现有方法相比的最先进结果。

ABSTRACT

In this work we explore recent advances in Recurrent Neural Networks for large scale Language Modeling, a task central to language understanding. We extend current models to deal with two key challenges present in this task: corpora and vocabulary sizes, and complex, long term structure of language. We perform an exhaustive study on techniques such as character Convolutional Neural Networks or Long-Short Term Memory, on the One Billion Word Benchmark. Our best single model significantly improves state-of-the-art perplexity from 51.3 down to 30.0 (whilst reducing the number of parameters by a factor of 20), while an ensemble of models sets a new record by improving perplexity from 41.0 down to 23.7. We also release these models for the NLP and ML community to study and improve upon.

研究动机与目标

以 One Billion Word Benchmark 为评估基准，推动并研究超越 PTB 的大规模语言建模。
通过结构创新（带投影的 LSTM、dropout、基于 CNN 的嵌入）在减少参数量的同时改善困惑度。
通过基于采样的损失和正则化策略，研究训练时效性和数据效率。
提供开源模型和训练方案，加速大规模语言模型的研究。

提出的方法

使用具有投影/瓶颈层的大规模循环神经网络（LSTM）。
引入基于 CNN 的词嵌入和基于 CNN 的 Softmax（eW = CNN(chars_w)），以减少参数量。
使用重要性采样（IS）损失作为全 Softmax 的高效替代，并将其与对比噪声估计（NCE）联系起来。
将词级模型与字符级 LSTM 预测器（Char LSTM）结合，作为一种混合方式来处理长尾词和未知词。
在非递归连接上使用 dropout、进行大批量异步 GPU 训练，并采用 AdaGrad 优化。
使用 1B Word Benchmark 的数据进行实验，并发布模型/训练方案。

实验结果

研究问题

RQ1是否能够将基于 LSTM 的语言模型扩展到极大词汇表和数据集，同时保持甚至提升困惑度？
RQ2字符级嵌入和基于 CNN 的 Softmax 是否在不牺牲性能的情况下降低参数量？
RQ3IS 和 NCE 损失在训练大规模语言模型时的比较如何，IS 是否具有数据效率？
RQ4模型规模、正则化和集成方法对困惑度和尾部单词表现的影响是什么？
RQ5基于 CNN 的和混合词-字符方法是否更擅长处理 OOV 单词以及多语言/形态丰富文本？

主要发现

模型	测试困惑度	参数数量 [十亿]
Sigmoid-RNN-2048 ( Ji et al., 2015a )	68.3	4.1
Interpolated KN 5-gram, 1.1B n-grams ( Chelba et al., 2013 )	67.6	1.76
Sparse Non-Negative Matrix LM ( Shazeer et al., 2015 )	52.9	33
RNN-1024 + MaxEnt 9-gram features ( Chelba et al., 2013 )	51.3	20
LSTM-512-512	54.1	0.82
LSTM-1024-512	48.2	0.82
LSTM-2048-512	43.7	0.83
LSTM-8192-2048 (No Dropout)	37.9	3.3
LSTM-8192-2048 (50% Dropout)	32.2	3.3
2-Layer LSTM-8192-1024 (BIG LSTM)	30.6	1.8
BIG LSTM+CNN Inputs	30.0	1.04
BIG LSTM+CNN Inputs + CNN Softmax	39.8	0.29
BIG LSTM+CNN Inputs + CNN Softmax + 128-dim correction	35.8	0.39
BIG LSTM+CNN Inputs + Char LSTM predictions	47.9	0.23

单一最佳模型在 1.04B 参数下达到困惑度 30.0（BIG LSTM+CNN Inputs）。
带有 128 维纠正的 CNN Softmax 提升了性能，在 0.39B 参数下达到困惑度 35.8。
字符 CNN 嵌入将输入层参数减少约 11 倍（72M 对 820M），同时保持有竞争力的性能。
IS 损失在训练速度和最终困惑度方面优于 NCE，适用于大规模语言模型。
由 10 个 LSTM 的集成以及补充组件达到 23.7 的困惑度，相较于以往工作有很大提升。
尾部单词的建模效果显示 LSTM 优于 KN-5，如对数概率分析所示。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。