Skip to main content
QUICK REVIEW

[論文レビュー] Recurrent Neural Network Regularization

Wojciech Zaremba, Ilya Sutskever|arXiv (Cornell University)|Sep 8, 2014
Neural Networks and Applications参考文献 32被引用数 2,276
ひとこと要約

本論文は、LSTM に対して再帰接続のみを対象にドロップアウトを適用する dropout ベースの正則化法を提案し、言語モデル、音声認識、翻訳、画像キャプション生成のタスク全般で過学習を大幅に抑制する。

ABSTRACT

We present a simple regularization technique for Recurrent Neural Networks (RNNs) with Long Short-Term Memory (LSTM) units. Dropout, the most successful technique for regularizing neural networks, does not work well with RNNs and LSTMs. In this paper, we show how to correctly apply dropout to LSTMs, and show that it substantially reduces overfitting on a variety of tasks. These tasks include language modeling, speech recognition, image caption generation, and machine translation.

研究の動機と目的

  • 再発性ネットワークにおける正則化の必要性を動機付け、過学習を防ぐ。
  • 再帰接続にドロップアウトを適用しないことで LSTM の記憶保持を害さず、ドロップアウト方式を提案する。
  • 方法の有効性を複数の領域(言語モデル、音声認識、機械翻訳、画像キャプション生成)で示す。
  • 実践的な指針(ドロップアウト確率)を提供し、非正則化ベースラインに対する経験的な向上を報告する。

提案手法

  • LSTM ベースの RNN において非再帰的結合のみにドロップアウトを適用する。
  • 入力-to-hidden 経路にドロップアウト演算子 D を用い、再帰結合はそのまま保つ。
  • 標準的なゲート i, f, o, g を用いた LSTM のダイナミクスを記述し、入力経路にドロップアウトを統合する: [i f o g] = [sigm sigm sigm tanh] T_{2n,4n} [D(h^{l-1}_{t}); h^{l}_{t-1}].
  • 再帰結合にはドロップアウトを適用しないことで長期記憶を維持し、多くのタイムステップにわたって情報が流れるようにする。
  • 中程度設定(各層あたり 650 ユニット、ドロップアウト 50%)と大規模設定(各層あたり 1500 ユニット、ドロップアウト 65%)の二つの実験構成を提供する。
  • 訓練の詳細(エポック数、学習率スケジュール、勾配クリッピング)を報告し、非正則化ベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1再帰接続以外の部分のドロップアウトのみを適用して LSTM の memorization を保持しつつ正則化の利点を提供できるか。
  • RQ2LSTM のドロップアウトは言語モデル、音声認識、機械翻訳、画像キャプション生成の性能にどのように影響するか。
  • RQ3中程度および大規模な LSTM 構成で最良の一般化を生むドロップアウト率はどれか。

主な発見

  • PTB の言語モデルで、 中程度の正則化済み LSTM は 86.2 (val) と 82.7 (test) のパープレックスシティを達成; 大規模な正則化済み LSTM は 82.2 (val) と 78.4 (test) 。
  • 非正則化ベースラインと比較してモデルサイズに応じて +14〜18 ポイントの改善。
  • 音声認識(アイスランド語データセット)で、正則化済み LSTM は検証フレーム精度を 70.5 に向上させる一方、訓練精度は 69.4 に低下。
  • 機械翻訳(英語→フランス語、WMT’14)では、正則化済み LSTM が perplexity 5.0、BLEU 29.03 を達成し、非正則化 LSTM の perplexity 5.8、BLEU 25.9 を上回る。
  • 画像キャプション生成(MSCOCO)では、正則化済みモデルが perplexity 7.99、BLEU 24.3、非正則化が 8.47、23.5。非正則化モデル 10 個のアンサンブルでも類似の向上(BLEU 24.4)。
  • 全体として、再帰接続のドロップアウトを削ることで、LSTM の記憶能力を損なうことなく、さまざまな RNN タスクに対してかなりの正則化効果を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。