Skip to main content
QUICK REVIEW

[論文レビュー] Exploring the Limits of Language Modeling

Rafał Józefowicz, Oriol Vinyals|arXiv (Cornell University)|Feb 7, 2016
Topic Modeling参考文献 51被引用数 915
ひとこと要約

本論文は One Billion Word Benchmark に対して非常に大規模な LSTM ベースの言語モデルを訓練し、CNN-based Softmax と character-level embeddings を導入してパラメータ数と perplexity を劇的に削減し、単一モデルとアンサンブルで最先端の結果を達成します。

ABSTRACT

In this work we explore recent advances in Recurrent Neural Networks for large scale Language Modeling, a task central to language understanding. We extend current models to deal with two key challenges present in this task: corpora and vocabulary sizes, and complex, long term structure of language. We perform an exhaustive study on techniques such as character Convolutional Neural Networks or Long-Short Term Memory, on the One Billion Word Benchmark. Our best single model significantly improves state-of-the-art perplexity from 51.3 down to 30.0 (whilst reducing the number of parameters by a factor of 20), while an ensemble of models sets a new record by improving perplexity from 41.0 down to 23.7. We also release these models for the NLP and ML community to study and improve upon.

研究の動機と目的

  • PTB を超える大規模な言語モデリングを One Billion Word Benchmark の使用とともに動機づけ、研究する。
  • アーキテクチャの革新(LSTMs with projections、dropout、CNN-based embeddings)を通じてパラメータ数を削減し perplexity を改善する。
  • サンプリングベースの損失と正則化戦略を通じて訓練時の効率性とデータ効率を調査する。
  • 大規模言語モデルの研究を加速するオープンソースのモデルと訓練レシピを提供する。

提案手法

  • プロジェクション/ボトルネック層を備えた大規模リカレントニューラルネットワーク(LSTMs)を使用する。
  • パラメータ数を削減するために CNN ベースの語彙埋め込みと CNN ベースの Softmax(eW = CNN(chars_w))を導入する。
  • 全 Softmax の代替として効率的な IS 損失を採用し、Noise Contrastive Estimation (NCE) との関係を説明する。
  • 長尾語や OOV(見出し語)語を扱うために語レベルモデルと文字レベルの LSTM 予測子(Char LSTM)をハイブリッドとして組み合わせる。
  • 非再帰接続にドロップアウトを適用した訓練、巨大バッチの非同期 GPU 訓練、AdaGrad による最適化。
  • データとして 1B Word Benchmark を用いた実験と、モデル/レシピの公開。

実験結果

リサーチクエスチョン

  • RQ1LSTM ベースの言語モデルを非常に大きな語彙とデータセットにスケールさせてもパープレキシティを維持または改善できるか。
  • RQ2文字レベルの埋め込みと CNN ベースの Softmax はパラメータ数を削減しつつ性能を損なわないか。
  • RQ3IS および NCE 損失は大規模言語モデルの訓練においてどの程度比較され、IS はデータ効率が良いか。
  • RQ4モデルサイズ、正則化、アンサンブル手法が perplexity および tail-word の性能に与える影響は。
  • RQ5CNN ベースおよびハイブリッド語-文字アプローチは OOV 語と多言語・形態学的に豊かなテキストをより良く扱えるか。

主な発見

モデルテスト perplexityパラメータ数 [十億]
Sigmoid-RNN-2048 ( Ji et al., 2015a )68.34.1
Interpolated KN 5-gram, 1.1B n-grams ( Chelba et al., 2013 )67.61.76
Sparse Non-Negative Matrix LM ( Shazeer et al., 2015 )52.933
RNN-1024 + MaxEnt 9-gram features ( Chelba et al., 2013 )51.320
LSTM-512-51254.10.82
LSTM-1024-51248.20.82
LSTM-2048-51243.70.83
LSTM-8192-2048 (No Dropout)37.93.3
LSTM-8192-2048 (50% Dropout)32.23.3
2-Layer LSTM-8192-1024 (BIG LSTM)30.61.8
BIG LSTM+CNN Inputs30.01.04
BIG LSTM+CNN Inputs + CNN Softmax39.80.29
BIG LSTM+CNN Inputs + CNN Softmax + 128-dim correction35.80.39
BIG LSTM+CNN Inputs + Char LSTM predictions47.90.23
  • 単一の最良モデルで perplexity が 30.0、パラメータは 1.04B(BIG LSTM+CNN Inputs)。
  • 128-dim 補正を伴う CNN Softmax が性能を改善し、0.39B パラメータで perplexity が 35.8 に。
  • Character CNN 埋め込みは入力層のパラメータを約 11 倍削減(72M 対 820M)しつつ競争力のある性能を維持。
  • IS 損失は大規模言語モデルの訓練速度と最終 perplexity の両方で NCE を上回る。
  • 補助要素を含む 10 個の LSTM のアンサンブルは perplexity を 23.7 へ大幅に改善する。
  • 尾部語は log-probability 分析から KN-5 より LSTM の方がよくモデル化される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。