[論文レビュー] Multiplicative LSTM for sequence modelling
この論文では、長短記憶(LSTM)ユニットと乗法的再帰的ニューラルネットワーク(mRNN)の重み因子化を組み合わせることで、入力に依存する隠れ状態遷移を可能にする、新たな再帰的ニューラルネットワークアーキテクチャ、乗法的LSTM(mLSTM)を提案する。入力ごとに異なる再帰関数を許容することで、mLSTMは自己回帰的系列モデリングにおける表現力と耐障害性を向上させ、文字レベル言語モデリングベンチマークで最先端の結果を達成しており、text8では1.27ビット/文字、Hutter Prizeでは1.24ビット/文字を記録した。標準LSTMや深層バージョンを上回っている。
We introduce multiplicative LSTM (mLSTM), a recurrent neural network architecture for sequence modelling that combines the long short-term memory (LSTM) and multiplicative recurrent neural network architectures. mLSTM is characterised by its ability to have different recurrent transition functions for each possible input, which we argue makes it more expressive for autoregressive density estimation. We demonstrate empirically that mLSTM outperforms standard LSTM and its deep variants for a range of character level language modelling tasks. In this version of the paper, we regularise mLSTM to achieve 1.27 bits/char on text8 and 1.24 bits/char on Hutter Prize. We also apply a purely byte-level mLSTM on the WikiText-2 dataset to achieve a character level entropy of 1.26 bits/char, corresponding to a word level perplexity of 88.8, which is comparable to word level LSTMs regularised in similar ways on the same task.
研究の動機と目的
- 固定された、入力に依存しない隠れ状態遷移により、予期しない入力や誤った入力からの回復が困難となる標準RNNの限界を解消すること。
- 長期間記憶を上書きせずに、柔軟で入力固有の再帰的遷移関数を可能にすることで、系列モデリングの表現力を向上させること。
- LSTMの記憶制御機能とmRNNの入力依存的ダイナミクスを組み合わせた再帰アーキテクチャを構築し、自己回帰的密度推定の性能を向上させること。
- 入力依存の遷移が、深層アーキテクチャや正則化技術に依存するのではなく、文字レベル言語モデリングで優れた性能を発揮できるかを評価すること。
提案手法
- mLSTMはLSTMのゲーティング機構と、mRNNの因子化された重み行列を統合し、隠れ状態から隠れ状態への遷移が現在の入力によって調整される。
- 隠れ状態の更新は、前の隠れ状態と、入力に依存するゲートベクトルとの乗法的相互作用として計算され、各入力記号ごとに異なる遷移関数を可能にする。
- 各入力記号ごとに別々のパラメータセットを用いることで、入力固有の遷移ダイナミクスを実現しながらも、LSTMゲートによる長期記憶の保持を維持する。
- 過学習を防ぐために、埋め込み層および隠れ層に重み正則化と変分ドロップアウト(0.5)を適用する。
- シーケンス生成のための交差エントロピー損失を用いてエンドツーエンドで学習し、文字レベルおよびバイトレベルのタスクにおいてビット/文字およびパープレキシティで評価する。
- 標準ベンチマークであるtext8、Hutter Prize、WikiText-2を用い、文字レベルおよびバイトレベルモデリングの両方で評価する。
実験結果
リサーチクエスチョン
- RQ1入力に依存する再帰的遷移関数は、標準LSTMやその深層バージョンと比較して、系列モデリング性能を向上させられるか?
- RQ2LSTMゲーティングと乗法的重み因子化の組み合わせにより、固定された遷移関数よりも、予期しない入力に対する耐障害性が向上するか?
- RQ3深層再帰アーキテクチャや複雑な正則化技術に依存せずに、mLSTMは文字レベル言語モデリングで競争力のある性能を達成できるか?
- RQ4mLSTMはワードレベルモデルと比較して、バイトレベルモデリングでどの程度の性能を示すか?また、サブワード単位をモデル化しているにもかかわらず、同等のパープレキシティを達成できるか?
主な発見
- mLSTMはtext8データセットで1.27ビット/文字を達成し、文字レベル言語モデリングの新しい最先端性能を樹立した。
- Hutter Prizeベンチマークでは1.24ビット/文字を達成し、過去最高の結果と同等の性能を示し、長距離文脈の系列モデリングにおいて優れた性能を発揮した。
- 純粋なバイトレベルmLSTMモデルは、テストセットの交差エントロピーが1.2649ビット/文字であり、WikiText-2ではワードレベルパープレキシティ88.8を達成した。
- サブワード単位をモデル化しているにもかかわらず、高度な正則化やアーキテクチャ的強化を用いた最先端のワードレベルLSTMと同等の性能を示した。
- mLSTMは、すべての評価された文字レベル言語モデリングタスクで標準LSTMや深層LSTMバージョンを上回り、入力依存の遷移の利点を示した。
- 2つの線形再帰的遷移行列のみで競争力ある結果が得られたことから、入力依存のダイナミクスが存在する場合、高い再帰的深さは強力な性能を発揮するために必ずしも必要ではないことが示唆された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。