[論文レビュー] Exploring the Limits of Language Modeling
本論文は One Billion Word Benchmark に対して非常に大規模な LSTM ベースの言語モデルを訓練し、CNN-based Softmax と character-level embeddings を導入してパラメータ数と perplexity を劇的に削減し、単一モデルとアンサンブルで最先端の結果を達成します。
In this work we explore recent advances in Recurrent Neural Networks for large scale Language Modeling, a task central to language understanding. We extend current models to deal with two key challenges present in this task: corpora and vocabulary sizes, and complex, long term structure of language. We perform an exhaustive study on techniques such as character Convolutional Neural Networks or Long-Short Term Memory, on the One Billion Word Benchmark. Our best single model significantly improves state-of-the-art perplexity from 51.3 down to 30.0 (whilst reducing the number of parameters by a factor of 20), while an ensemble of models sets a new record by improving perplexity from 41.0 down to 23.7. We also release these models for the NLP and ML community to study and improve upon.
研究の動機と目的
- PTB を超える大規模な言語モデリングを One Billion Word Benchmark の使用とともに動機づけ、研究する。
- アーキテクチャの革新(LSTMs with projections、dropout、CNN-based embeddings)を通じてパラメータ数を削減し perplexity を改善する。
- サンプリングベースの損失と正則化戦略を通じて訓練時の効率性とデータ効率を調査する。
- 大規模言語モデルの研究を加速するオープンソースのモデルと訓練レシピを提供する。
提案手法
- プロジェクション/ボトルネック層を備えた大規模リカレントニューラルネットワーク(LSTMs)を使用する。
- パラメータ数を削減するために CNN ベースの語彙埋め込みと CNN ベースの Softmax(eW = CNN(chars_w))を導入する。
- 全 Softmax の代替として効率的な IS 損失を採用し、Noise Contrastive Estimation (NCE) との関係を説明する。
- 長尾語や OOV(見出し語)語を扱うために語レベルモデルと文字レベルの LSTM 予測子(Char LSTM)をハイブリッドとして組み合わせる。
- 非再帰接続にドロップアウトを適用した訓練、巨大バッチの非同期 GPU 訓練、AdaGrad による最適化。
- データとして 1B Word Benchmark を用いた実験と、モデル/レシピの公開。
実験結果
リサーチクエスチョン
- RQ1LSTM ベースの言語モデルを非常に大きな語彙とデータセットにスケールさせてもパープレキシティを維持または改善できるか。
- RQ2文字レベルの埋め込みと CNN ベースの Softmax はパラメータ数を削減しつつ性能を損なわないか。
- RQ3IS および NCE 損失は大規模言語モデルの訓練においてどの程度比較され、IS はデータ効率が良いか。
- RQ4モデルサイズ、正則化、アンサンブル手法が perplexity および tail-word の性能に与える影響は。
- RQ5CNN ベースおよびハイブリッド語-文字アプローチは OOV 語と多言語・形態学的に豊かなテキストをより良く扱えるか。
主な発見
| モデル | テスト perplexity | パラメータ数 [十億] |
|---|---|---|
| Sigmoid-RNN-2048 ( Ji et al., 2015a ) | 68.3 | 4.1 |
| Interpolated KN 5-gram, 1.1B n-grams ( Chelba et al., 2013 ) | 67.6 | 1.76 |
| Sparse Non-Negative Matrix LM ( Shazeer et al., 2015 ) | 52.9 | 33 |
| RNN-1024 + MaxEnt 9-gram features ( Chelba et al., 2013 ) | 51.3 | 20 |
| LSTM-512-512 | 54.1 | 0.82 |
| LSTM-1024-512 | 48.2 | 0.82 |
| LSTM-2048-512 | 43.7 | 0.83 |
| LSTM-8192-2048 (No Dropout) | 37.9 | 3.3 |
| LSTM-8192-2048 (50% Dropout) | 32.2 | 3.3 |
| 2-Layer LSTM-8192-1024 (BIG LSTM) | 30.6 | 1.8 |
| BIG LSTM+CNN Inputs | 30.0 | 1.04 |
| BIG LSTM+CNN Inputs + CNN Softmax | 39.8 | 0.29 |
| BIG LSTM+CNN Inputs + CNN Softmax + 128-dim correction | 35.8 | 0.39 |
| BIG LSTM+CNN Inputs + Char LSTM predictions | 47.9 | 0.23 |
- 単一の最良モデルで perplexity が 30.0、パラメータは 1.04B(BIG LSTM+CNN Inputs)。
- 128-dim 補正を伴う CNN Softmax が性能を改善し、0.39B パラメータで perplexity が 35.8 に。
- Character CNN 埋め込みは入力層のパラメータを約 11 倍削減(72M 対 820M)しつつ競争力のある性能を維持。
- IS 損失は大規模言語モデルの訓練速度と最終 perplexity の両方で NCE を上回る。
- 補助要素を含む 10 個の LSTM のアンサンブルは perplexity を 23.7 へ大幅に改善する。
- 尾部語は log-probability 分析から KN-5 より LSTM の方がよくモデル化される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。