[論文レビュー] Zoneout: Regularizing RNNs by Randomly Preserving Hidden Activations
Zoneout は RNN を正則化し、隠れ状態の活性化を確率的に保持することで、時間を通じた同一性接続を作り出し、勾配の流れと汎化性能を向上させます。これにより、言語モデリングと permuted sequential MNIST で競争力のある、または最先端の結果を達成します。
We propose zoneout, a novel method for regularizing RNNs. At each timestep, zoneout stochastically forces some hidden units to maintain their previous values. Like dropout, zoneout uses random noise to train a pseudo-ensemble, improving generalization. But by preserving instead of dropping hidden units, gradient information and state information are more readily propagated through time, as in feedforward stochastic depth networks. We perform an empirical investigation of various RNN regularizers, and find that zoneout gives significant performance improvements across tasks. We achieve competitive results with relatively simple models in character- and word-level language modelling on the Penn Treebank and Text8 datasets, and combining with recurrent batch normalization yields state-of-the-art results on permuted sequential MNIST.
研究の動機と目的
- 再帰的ネットワークの一般化を向上させるための堅牢な正則化を動機づけ、 temporal information flow を損なわないこと。
- Zoneout を隠れ状態とセルの確率的同一性保持として導入すること。
- 複数の RNN タスクにおいて zoneout を dropout および他の正則化手法と経験的に比較すること。
- Penn Treebank、Text8、および permuted MNIST で競争力のある性能を示し、再帰的バッチ正規化と組み合わせた場合も含む。
提案手法
- Zoneout を、単位ごとの Bernoulli マスクによって制御される、再帰遷移と恒等写像の確率的ブレンドとして定義する。
- ドロップアウトに類似したノイズ注入で訓練するが、過去の活性化をゼロにするのではなく保持する。
- LSTM のセルと hidden states に別々の zoneout マスクを適用する。ゲート間でマスクを共有する、または関連コンポーネントに対して入力 dropout マスクを再利用することも可能。
- 推定されるノイズの期待値をテスト時に用いて、前方・後方の流れを安定させる。
- Zoneout を RNN における recurrent dropout、ウェイトノイズ、ノルム安定化子、確率的深さと比較する。
- 文字レベルおよび語レベルの言語モデリングと permuted sequential MNIST を評価し、マスク確率のアブレーション研究を含む。
実験結果
リサーチクエスチョン
- RQ1Zoneout は標準の dropout や他の正則化手法と比較して RNN の一般化性能を改善しますか?
- RQ2タスク間で性能を最大化するために Zoneout はどのように設定すべきですか(セルと hidden states の確率)?
- RQ3Zoneout は初期タイムステップへの勾配の流れを改善し、勾配消失/爆発の問題を緩和しますか?
- RQ4再帰的バッチ正規化のような他の正則化手法と組み合わせた場合、Zoneout は最先端の結果を達成しますか?
- RQ5Zoneout は vanilla RNN、LSTM、GRU のいずれにも広く適用可能ですか?
主な発見
- Zoneout は複数のベースラインに対して、文字レベルおよび語レベルの言語モデリングと pMNIST において一般化性能を向上させる。
- 文字レベル PTB では、zc=0.5 および zh=0.05 の Zoneout が 1.27 BPC を達成し、最先端手法と競合する。
- 語レベル PTB では、リカレント接続を用いた Zoneout がテストパープレキシティを 78.4 から 77.4 に改善し、強力なベースラインで結果を向上させる;Zoneout とフィードフォワード dropout を混ぜると結果がさらに良くなる。
- Text8 では、Zoneout は正則化なしの LSTM や他の正則化手法と比較してトレーニング/検証曲線で競争力を示す。
- pMNIST では Zoneout は recurrent dropout を上回り、再帰的バッチ正規化(RBN)と組み合わせると最先端となる。
- 勾配フローの解析は、Zoneout が dropout よりも初期のタイムステップへの勾配情報をより効果的に保持することを示し、その正則化効果を裏付けている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。