QUICK REVIEW

[論文レビュー] BlackOut: Speeding up Recurrent Neural Network Language Models With Very Large Vocabularies

Shihao Ji, S. V. N. Vishwanathan|arXiv (Cornell University)|Nov 21, 2015

Natural Language Processing Techniques被引用数 40

ひとこと要約

BlackOutは、出力層に重み付きサンプリングを適用することで、数百万語の語彙を持つ大規模な再帰的ニューラルネットワーク言語モデル（RNNLM）の学習を高速化するサンプリングに基づく近似手法であり、安定性と収束性を向上させるための判別的損失関数を用いる。単一のCPUマシンを用いて1日～10日間で学習を完了させ、GPUやクラスタを一切使用せず、10億語のベンチマークで最先端の未知語確率（perplexity）を達成した。

ABSTRACT

We propose BlackOut, an approximation algorithm to efficiently train massive recurrent neural network language models (RNNLMs) with million word vocabularies. BlackOut is motivated by using a discriminative loss, and we describe a new sampling strategy which significantly reduces computation while improving stability, sample efficiency, and rate of convergence. One way to understand BlackOut is to view it as an extension of the DropOut strategy to the output layer, wherein we use a discriminative training loss and a weighted sampling scheme. We also establish close connections between BlackOut, importance sampling, and noise contrastive estimation (NCE). Our experiments, on the recently released one billion word language modeling benchmark, demonstrate scalability and accuracy of BlackOut; we outperform the state-of-the art, and achieve the lowest perplexity scores on this dataset. Moreover, unlike other established methods which typically require GPUs or CPU clusters, we show that a carefully implemented version of BlackOut requires only 1-10 days on a single machine to train a RNNLM with a million word vocabulary and billions of parameters on one billion words. Although we describe BlackOut in the context of RNNLM training, it can be used to any networks with large softmax output layers.

研究の動機と目的

非常に大きな語彙（例：100万語）を有するRNNLMの学習における計算ボトル neck を解消すること、特にソフトマックス出力層が学習時間を圧倒的に占める問題に対処する。
モデルの精度や一般化性能を損なわずに、学習時間とリソース要件を削減すること。
GPUやCPUクラスタを必要とせず、単一マシン上での大規模RNNLMの学習を可能にすること。
従来の近似手法（NCE や重要度サンプリング）と比較して、学習の安定性、サンプル効率、収束速度を向上させること。
BlackOutと重要度サンプリング、ノイズ対比推定（NCE）との理論的・実用的関連性を確立し、それらの限界を軽減すること。

提案手法

RNNLMの出力層に適用する重み付きサンプリング戦略としてBlackOutを提案し、各学習バッチで出力ユニットのサブセットのみを更新する。
正しい次の語を予測することに焦点を当てた判別的損失関数を用い、ネガティブな候補は提案分布Q(w)からサンプリングする。
各サンプル語にそのサンプリング確率の逆数に比例する重みを割り当てることで、バイアスのない勾配推定を実現する重み付きサンプリング方式を導入する。
NCEに類似した対比的損失関数を定式化するが、収束性の向上と分散の低減を図るため、適応的なサンプリング重みを導入する。
ドロップアウトの概念を出力層に拡張し、推論時にはネットワーク全体をそのまま利用する一方、学習時には出力ユニットをランダムにマスクする。
カバレッジと収束速度のバランスを取るために、サンプリングレートとハイパーパrameter α を最適化し、特に大規模語彙（例：V=100万で0.2%のサンプリングレート）において有効に機能するように設計する。

実験結果

リサーチクエスチョン

RQ1サンプリングに基づく近似手法として、BlackOutは、数百万語の語彙を持つRNNLMの学習時間を著しく短縮しつつ、モデルの精度を維持または向上させることができるか？
RQ2BlackOutの重み付きサンプリング戦略は、標準的なNCEや重要度サンプリングと比較して、収束速度、安定性、サンプル効率においてどのように優れているか？
RQ3BlackOutは、GPUや分散クラスタに依存せずに、単一のCPUマシン上での大規模RNNLMの学習をどの程度可能にするか？
RQ4提案分布Q(w)とサンプリングレートが、モデル性能と学習ダイナミクスに与える影響は何か？
RQ5BlackOutは、RNNLMに限らず、大規模なソフトマックス出力層を有する他の深層学習モデルへも一般化可能か？

主な発見

BlackOutは、100万語のRNNLM（23億パラメータ）とKN 5-gramモデルを組み合わせることで、10億語ベンチマークで47.3という報告済みの最低の未知語確率（perplexity）を達成し、先行する最先端手法を上回った。
2,048個の隠れユニットと100万語の語彙を有するモデルは、単一のCPUマシンで175時間の学習を経て、テスト未知語確率68.3を達成した。
BlackOutを用いた学習は、単一マシンで1～10日間で完了したが、類似したモデルについての先行研究では、32台のCPUクラスタを用いても60時間かかっていた。
同様の設定下で、BlackOutはNCEよりも高速な収束と向上した安定性を示した。NCEは同じ時間枠内では競争力のある性能に収束しなかった。
各バッチで小さな重み付き出力ユニットサブセットに集中することで、計算コストを大幅に削減し、一般ハードウェア上での大規模学習を可能にした。
BlackOutで学習されたモデルは過学習が抑えられ、ドロップアウトと同様の正則化効果が見られたが、これは出力層への適用にもかかわらず顕著であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。