QUICK REVIEW

[論文レビュー] Recurrent Batch Normalization

Tim Cooijmans, Nicolas Ballas|arXiv (Cornell University)|Mar 30, 2016

Topic Modeling参考文献 26被引用数 58

ひとこと要約

本稿では、LSTMの再パrameter化として、隠れ状態同士の遷移にバッチ正則化を適用する再帰的バッチ正則化（RBN）を提案する。これにより、時系列間での内部分布シフトが低減される。実験的結果から、言語モデル作成や質問応答といった系列モデルタスクにおいて、標準LSTMや先行するRNNにおけるバッチ正則化手法を上回る収束速度の向上と一般化性能の向上が確認された。

ABSTRACT

We propose a reparameterization of LSTM that brings the benefits of batch normalization to recurrent neural networks. Whereas previous works only apply batch normalization to the input-to-hidden transformation of RNNs, we demonstrate that it is both possible and beneficial to batch-normalize the hidden-to-hidden transition, thereby reducing internal covariate shift between time steps. We evaluate our proposal on various sequential problems such as sequence classification, language modeling and question answering. Our empirical results show that our batch-normalized LSTM consistently leads to faster convergence and improved generalization.

研究の動機と目的

入力層から隠れ層へのバッチ正則化を越えて、隠れ状態同士の遷移に対してもバッチ正則化を拡張することで、再帰的ニューラルネットワークにおける内部分布シフトを是正すること。
勾配爆発と不適切な初期化が原因で、従来のバッチ正則化がRNNに適用できなかった問題を克服すること。
隠れ状態遷移におけるバッチ正則化が、逐次学習タスクにおける最適化と一般化性能を向上させることを示すこと。
可変長系列とアテンション機構を含む多様なタスク（系列分類、言語モデル作成、質問応答など）において、手法の有効性を検証すること。
双方向RNNおよびアテンション拡張RNNへのバッチ正則化の適用を可能にする堅牢なフレームワークを提供すること。

提案手法

LSTMを再パラメータ化し、隠れ状態同士の遷移にバッチ正則化層を導入することで、各時刻でミニバッチ全体の隠れ状態を標準化する。
入力と隠れ状態の結合変換に対してもバッチ正則化を適用し、活性化関数の入力前に線形変換の出力を正則化する。
正則化後の表現能力を維持するために、バッチ正則化層に学習可能なアフィンパラメータ（スケーリングおよびシフト）を用いる。
可変長系列におけるゼロパディングによるバイアスを回避するため、入力項のみに時系列に跨る統計を共有する、系列単位の正則化を採用する。
注意メカニズムを備えたアテンショナルリーダーモデルにバッチ正則化を適用し、双曲正接非線形関数の前段で項を正則化する。
勾配消失を防ぎ、安定した学習を実現するため、バッチ正則化パラメータの慎重な初期化を実施する。

実験結果

リサーチクエスチョン

RQ1LSTMの隠れ状態同士の遷移にバッチ正則化を効果的に適用することで、内部分布シフトを低減できるか？
RQ2従来のRNNへのバッチ正則化適用が失敗した理由は何か？また、適切な初期化によってその問題は解消可能か？
RQ3再帰的バッチ正則化は、系列モデルタスクにおける学習速度と一般化性能を向上させるか？
RQ4アテンション機構や双方向RNNを含む複雑なアーキテクチャに対しても、バッチ正則化を成功裏に拡張可能か？
RQ5可変長系列とゼロパディングを伴う状況下で、バッチ正則化は最適化にどのように影響を与えるか？

主な発見

再帰的バッチ正則化（BN-LSTM）は、系列分類および言語モデル作成タスクにおいて、標準LSTMに比べて学習収束が著しく高速化された。
CNN質問応答タスクでは、BN-e**（双方向BN-e*）がテスト誤差率36.3%を達成し、ベースラインLSTM（45.0%）および元のアテンショナルリーダー（37.0%）を上回った。
BN-everywhereバージョン（アテンション項を正則化）は、バリデーション誤差49.5%を記録し、ベースラインLSTMに比べ一般化性能の向上が確認された。
BN-e*およびBN-e**は、それぞれ47.1%および43.9%の最小誤差を達成し、最適化の向上に起因する一般化性能の向上を示した。
バッチ正則化パラメータの適切な初期化が不可欠であることが判明した。不適切な初期化は勾配消失を引き起こし、学習失敗を招くことがあり、これは以前の仮定とは対照的であった。
系列単位の正則化と逆伝播時のパディング構造の保持により、可変長系列および双方向RNNに対しても本手法は効果的に対応できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。