QUICK REVIEW

[論文レビュー] Exploring the Limits of Language Modeling

Rafał Józefowicz, Oriol Vinyals|arXiv (Cornell University)|Feb 7, 2016

Topic Modeling参考文献 51被引用数 915

ひとこと要約

本論文は One Billion Word Benchmark に対して非常に大規模な LSTM ベースの言語モデルを訓練し、CNN-based Softmax と character-level embeddings を導入してパラメータ数と perplexity を劇的に削減し、単一モデルとアンサンブルで最先端の結果を達成します。

ABSTRACT

In this work we explore recent advances in Recurrent Neural Networks for large scale Language Modeling, a task central to language understanding. We extend current models to deal with two key challenges present in this task: corpora and vocabulary sizes, and complex, long term structure of language. We perform an exhaustive study on techniques such as character Convolutional Neural Networks or Long-Short Term Memory, on the One Billion Word Benchmark. Our best single model significantly improves state-of-the-art perplexity from 51.3 down to 30.0 (whilst reducing the number of parameters by a factor of 20), while an ensemble of models sets a new record by improving perplexity from 41.0 down to 23.7. We also release these models for the NLP and ML community to study and improve upon.

研究の動機と目的

PTB を超える大規模な言語モデリングを One Billion Word Benchmark の使用とともに動機づけ、研究する。
アーキテクチャの革新（LSTMs with projections、dropout、CNN-based embeddings）を通じてパラメータ数を削減し perplexity を改善する。
サンプリングベースの損失と正則化戦略を通じて訓練時の効率性とデータ効率を調査する。
大規模言語モデルの研究を加速するオープンソースのモデルと訓練レシピを提供する。

提案手法

プロジェクション/ボトルネック層を備えた大規模リカレントニューラルネットワーク（LSTMs）を使用する。
パラメータ数を削減するために CNN ベースの語彙埋め込みと CNN ベースの Softmax（eW = CNN(chars_w)）を導入する。
全 Softmax の代替として効率的な IS 損失を採用し、Noise Contrastive Estimation (NCE) との関係を説明する。
長尾語や OOV（見出し語）語を扱うために語レベルモデルと文字レベルの LSTM 予測子（Char LSTM）をハイブリッドとして組み合わせる。
非再帰接続にドロップアウトを適用した訓練、巨大バッチの非同期 GPU 訓練、AdaGrad による最適化。
データとして 1B Word Benchmark を用いた実験と、モデル/レシピの公開。

実験結果

リサーチクエスチョン

RQ1LSTM ベースの言語モデルを非常に大きな語彙とデータセットにスケールさせてもパープレキシティを維持または改善できるか。
RQ2文字レベルの埋め込みと CNN ベースの Softmax はパラメータ数を削減しつつ性能を損なわないか。
RQ3IS および NCE 損失は大規模言語モデルの訓練においてどの程度比較され、IS はデータ効率が良いか。
RQ4モデルサイズ、正則化、アンサンブル手法が perplexity および tail-word の性能に与える影響は。
RQ5CNN ベースおよびハイブリッド語-文字アプローチは OOV 語と多言語・形態学的に豊かなテキストをより良く扱えるか。

主な発見

モデル	テスト perplexity	パラメータ数 [十億]
Sigmoid-RNN-2048 ( Ji et al., 2015a )	68.3	4.1
Interpolated KN 5-gram, 1.1B n-grams ( Chelba et al., 2013 )	67.6	1.76
Sparse Non-Negative Matrix LM ( Shazeer et al., 2015 )	52.9	33
RNN-1024 + MaxEnt 9-gram features ( Chelba et al., 2013 )	51.3	20
LSTM-512-512	54.1	0.82
LSTM-1024-512	48.2	0.82
LSTM-2048-512	43.7	0.83
LSTM-8192-2048 (No Dropout)	37.9	3.3
LSTM-8192-2048 (50% Dropout)	32.2	3.3
2-Layer LSTM-8192-1024 (BIG LSTM)	30.6	1.8
BIG LSTM+CNN Inputs	30.0	1.04
BIG LSTM+CNN Inputs + CNN Softmax	39.8	0.29
BIG LSTM+CNN Inputs + CNN Softmax + 128-dim correction	35.8	0.39
BIG LSTM+CNN Inputs + Char LSTM predictions	47.9	0.23

単一の最良モデルで perplexity が 30.0、パラメータは 1.04B（BIG LSTM+CNN Inputs）。
128-dim 補正を伴う CNN Softmax が性能を改善し、0.39B パラメータで perplexity が 35.8 に。
Character CNN 埋め込みは入力層のパラメータを約 11 倍削減（72M 対 820M）しつつ競争力のある性能を維持。
IS 損失は大規模言語モデルの訓練速度と最終 perplexity の両方で NCE を上回る。
補助要素を含む 10 個の LSTM のアンサンブルは perplexity を 23.7 へ大幅に改善する。
尾部語は log-probability 分析から KN-5 より LSTM の方がよくモデル化される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。