QUICK REVIEW

[論文レビュー] Regularizing and Optimizing LSTM Language Models

Stephen Merity, Nitish Shirish Keskar|arXiv (Cornell University)|Aug 7, 2017

Topic Modeling参考文献 31被引用数 468

ひとこと要約

本論文は AWD-LSTM（重み落としLSTM）と NT-ASGD を導入し、LSTM言語モデルを正則化・最適化、Penn Treebank と WikiText-2 で最先端のパープレキシティを達成し、ニューラルキャッシュでさらなる利得。

ABSTRACT

Recurrent neural networks (RNNs), such as long short-term memory networks (LSTMs), serve as a fundamental building block for many sequence learning tasks, including machine translation, language modeling, and question answering. In this paper, we consider the specific problem of word-level language modeling and investigate strategies for regularizing and optimizing LSTM-based models. We propose the weight-dropped LSTM which uses DropConnect on hidden-to-hidden weights as a form of recurrent regularization. Further, we introduce NT-ASGD, a variant of the averaged stochastic gradient method, wherein the averaging trigger is determined using a non-monotonic condition as opposed to being tuned by the user. Using these and other regularization strategies, we achieve state-of-the-art word level perplexities on two data sets: 57.3 on Penn Treebank and 65.8 on WikiText-2. In exploring the effectiveness of a neural cache in conjunction with our proposed model, we achieve an even lower state-of-the-art perplexity of 52.8 on Penn Treebank and 52.0 on WikiText-2.

研究の動機と目的

LSTMの実装を変更せずに、過パラメータ化されたRNNに対する効果的な正則化を動機づける。
リカレント正則化のための重み落としLSTMの提案（隠れ層-隠れ層の重みへのDropConnect）
正則化されたLSTMsの訓練を改善するための最適化戦略、特にNT-ASGDを調査する。
変長BPTT、埋め込みドロップアウト、AR/TAR、重み結合などの拡張正則化を検討し、データ効率と一般化を改善する。
PTBとWT2で評価し、最先端のパープレキシティを確立し、ニューラルキャッシュの利得を評価する。

提案手法

LSTM内部構造を変更せずに、再帰接続を正則化するために、再帰重み行列にDropConnectを適用した重み落としLSTMを導入する。
学習率を固定したまま、平均SGDの非単調トリガー変種であるNT-ASGDを用いて、訓練の安定性と性能を向上させる。
訓練時にデータをより効率的に活用するため、可変長のBackpropagation Through Timeを適用する。
モデルの異なる部分に埋め込みドロップアウトとバリアショナルドロップアウトを実装する。
パラメータを削減し一般化を向上させるため、埋め込みとソフトマックスのウェイトタイを採用する。
最終LSTM層の出力に適用する活性化正則化（AR）と時系列活性化正則化（TAR）を組み込む。

実験結果

リサーチクエスチョン

RQ1隠れ-to-隠れの重みへのDropConnectによるリカレント正則化は、LSTM実装を変更せずに語彙レベルの言語モデルの一般化を改善できるか？
RQ2NT-ASGDは、言語モデリングの正則化LSTMsの訓練において、標準のSGD/ASGDより実用的かつ性能向上をもたらすか？
RQ3変長BPTT、埋め込みドロップアウト、AR/TAR、重み結合などの拡張正則化技術が、PTBとWT2のパープレキシティに与える影響はどの程度か？
RQ4ニューラルキャッシュがAWD-LSTMとどのように相互作用して、PTBとWT2のパープレキシティをさらに低下させるか？

主な発見

AWD-LSTMは、Vanilla LSTMを用いて、Penn Treebank（57.3）およびWikiText-2（65.8）で語彙レベルの最先端パープレキシティを達成。
AWD-LSTMの上にニューラルキャッシュを適用すると、PTBで52.8、WT2で52.0へさらなる改善をもたらす。
NT-ASGDは、これらの正則化LSTMの訓練においてSGDベースの訓練より優れている。
変長BPTT、埋め込みドロップアウト、AR/TAR、重み結合といった拡張正則化技術は、パープレキシティの大幅な改善とデータ効率に寄与する。
重み落としLSTM（再帰重みに対するDropConnect）は重要な要素であり、これを取り除くとパープレキシティが大幅に悪化する（最大で11ポイント）。
NT-ASGDの後にASGDをファインチューニングすると追加の利得が得られる；このステップを削除すると性能が低下する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。