QUICK REVIEW

[論文レビュー] Recurrent Dropout Without Memory Loss

Stanislau Semeniuta, Aliaksei Severyn|arXiv (Cornell University)|Mar 16, 2016

Advanced Neural Network Applications参考文献 23被引用数 100

ひとこと要約

RNN に対して、ゲート付きアーキテクチャ（LSTM/GRU）で更新ベクトルをドロップする再帰的 dropout 手法を導入し、長期記憶を失うことなく正則化効果を得られ、特に前方 dropout と組み合わせた場合に効果を発揮する。

ABSTRACT

This paper presents a novel approach to recurrent neural network (RNN) regularization. Differently from the widely adopted dropout method, which is applied to forward connections of feed-forward architectures or RNNs, we propose to drop neurons directly in recurrent connections in a way that does not cause loss of long-term memory. Our approach is as easy to implement and apply as the regular feed-forward dropout and we demonstrate its effectiveness for the most popular recurrent networks: vanilla RNNs, Long Short-Term Memory (LSTM) and Gated Recurrent Unit (GRU) networks. Our experiments on three NLP benchmarks show consistent improvements even when combined with conventional feed-forward dropout.

研究の動機と目的

RNNs の過剰適合、特に LSTMs/GRUs に対して再帰的接続を正則化することで対処する。
長期記憶を保持する再帰的 dropout 手法を提案する。
提案手法と既存の再帰的 dropout アプローチを比較する。
言語モデリング、NER、感情分析タスクで複数データセットにわたり手法を評価する。
サンプリング方式（per-step vs per-sequence）が再帰的 dropout とどのように相互作用するかを検討する。

提案手法

再帰的更新に対して dropout を適用し、ゲート付き RNN の記憶喪失を避ける。
LSTM/GRU の方程式内でセル更新ベクトル g_t に dropout を定式化し、記憶経路を維持する。
タスク間で per-step の dropout マスクサンプリングを許可し、per-sequence サンプリングと比較する。
前方 dropout と組み合わせた場合の記憶を保つ dropout を、 hidden states や cell values をドロップする従来の再帰的 dropout 方式と対比して示す。
学習曲線を用いた収束挙動を分析し、前方 dropout との相互作用を調べる。

実験結果

リサーチクエスチョン

RQ1LSTMs/GRUs で長期記憶を破壊することなく再帰的接続に dropout を適用するにはどうすればよいか？
RQ2再帰的 dropout と標準の forward dropout の関係は何か？
RQ3再帰的 dropout では per-step か per-sequence のマスクサンプリングが適切で、性能にどう影響するか？
RQ4再帰的 dropout 手法は language modeling、NER、感情タスク全般で一般化を改善するか？
RQ5hidden state 更新ベクトルをドロップするのと hidden states 自体をドロップするのとではどのような違いがあるか？

主な発見

LSTMs/GRUs の hidden state 更新ベクトルに再帰的 dropout を適用すると記憶を保持しつつ正則化効果が得られる。
提案手法では per-step のサンプリングが一般的に per-sequence のサンプリングと同等またはそれを上回る効果を示す。
再帰的 dropout を前方 dropout と結合すると、いくつかの NLP ベンチマークで追加の性能向上をもたらす。
前方 dropout と組み合わせた場合、言語モデリングの perplexity や NER の F1 スコアが改善され、特に LSTMs と GRUs に対して効果的である。
更新ベクトルの dropout は hidden states や cell values にドロップを適用することが招くメモリ蓄積スケーリング問題を回避する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。