Skip to main content
QUICK REVIEW

[論文レビュー] Recurrent Dropout Without Memory Loss

Stanislau Semeniuta, Aliaksei Severyn|arXiv (Cornell University)|Mar 16, 2016
Advanced Neural Network Applications参考文献 23被引用数 100
ひとこと要約

RNN に対して、ゲート付きアーキテクチャ(LSTM/GRU)で更新ベクトルをドロップする再帰的 dropout 手法を導入し、長期記憶を失うことなく正則化効果を得られ、特に前方 dropout と組み合わせた場合に効果を発揮する。

ABSTRACT

This paper presents a novel approach to recurrent neural network (RNN) regularization. Differently from the widely adopted dropout method, which is applied to forward connections of feed-forward architectures or RNNs, we propose to drop neurons directly in recurrent connections in a way that does not cause loss of long-term memory. Our approach is as easy to implement and apply as the regular feed-forward dropout and we demonstrate its effectiveness for the most popular recurrent networks: vanilla RNNs, Long Short-Term Memory (LSTM) and Gated Recurrent Unit (GRU) networks. Our experiments on three NLP benchmarks show consistent improvements even when combined with conventional feed-forward dropout.

研究の動機と目的

  • RNNs の過剰適合、特に LSTMs/GRUs に対して再帰的接続を正則化することで対処する。
  • 長期記憶を保持する再帰的 dropout 手法を提案する。
  • 提案手法と既存の再帰的 dropout アプローチを比較する。
  • 言語モデリング、NER、感情分析タスクで複数データセットにわたり手法を評価する。
  • サンプリング方式(per-step vs per-sequence)が再帰的 dropout とどのように相互作用するかを検討する。

提案手法

  • 再帰的更新に対して dropout を適用し、ゲート付き RNN の記憶喪失を避ける。
  • LSTM/GRU の方程式内でセル更新ベクトル g_t に dropout を定式化し、記憶経路を維持する。
  • タスク間で per-step の dropout マスクサンプリングを許可し、per-sequence サンプリングと比較する。
  • 前方 dropout と組み合わせた場合の記憶を保つ dropout を、 hidden states や cell values をドロップする従来の再帰的 dropout 方式と対比して示す。
  • 学習曲線を用いた収束挙動を分析し、前方 dropout との相互作用を調べる。

実験結果

リサーチクエスチョン

  • RQ1LSTMs/GRUs で長期記憶を破壊することなく再帰的接続に dropout を適用するにはどうすればよいか?
  • RQ2再帰的 dropout と標準の forward dropout の関係は何か?
  • RQ3再帰的 dropout では per-step か per-sequence のマスクサンプリングが適切で、性能にどう影響するか?
  • RQ4再帰的 dropout 手法は language modeling、NER、感情タスク全般で一般化を改善するか?
  • RQ5hidden state 更新ベクトルをドロップするのと hidden states 自体をドロップするのとではどのような違いがあるか?

主な発見

  • LSTMs/GRUs の hidden state 更新ベクトルに再帰的 dropout を適用すると記憶を保持しつつ正則化効果が得られる。
  • 提案手法では per-step のサンプリングが一般的に per-sequence のサンプリングと同等またはそれを上回る効果を示す。
  • 再帰的 dropout を前方 dropout と結合すると、いくつかの NLP ベンチマークで追加の性能向上をもたらす。
  • 前方 dropout と組み合わせた場合、言語モデリングの perplexity や NER の F1 スコアが改善され、特に LSTMs と GRUs に対して効果的である。
  • 更新ベクトルの dropout は hidden states や cell values にドロップを適用することが招くメモリ蓄積スケーリング問題を回避する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。