QUICK REVIEW

[論文レビュー] On the difficulty of training Recurrent Neural Networks

Razvan Pascanu, Tomáš Mikolov|arXiv (Cornell University)|Nov 21, 2012

Neural Networks and Applications参考文献 23被引用数 3,783

ひとこと要約

tldr: 本論文は解析的・幾何学的・動的観点からRNNの消失勾配と発散勾配を分析し、長距離依存性の学習を改善するために勾配クリッピングと消失勾配正則化を提案する。人工タスクと実データセットで実証的に検証している。

ABSTRACT

There are two widely known issues with properly training Recurrent Neural Networks, the vanishing and the exploding gradient problems detailed in Bengio et al. (1994). In this paper we attempt to improve the understanding of the underlying issues by exploring these problems from an analytical, a geometric and a dynamical systems perspective. Our analysis is used to justify a simple yet effective solution. We propose a gradient norm clipping strategy to deal with exploding gradients and a soft constraint for the vanishing gradients problem. We validate empirically our hypothesis and proposed solutions in the experimental section.

研究の動機と目的

リカレントニューラルネットワークにおける消失勾配と発散勾配の原因を調査する。
勾配ノルムクリッピングによる発散勾配の緩和など、実用的な手法を提案する。
時を超えた情報伝搬を維持するソフトな消失勾配正則化を提案する。
合成タスクと実世界のシーケンスモデリングベンチマークで実証的に検証する。

提案手法

BPTTの和積形式を用いて爆発的勾配を強調する勾配式を導出する。
再帰ウェイト行列の固有半径とヤコビ行列積による勾配発散の条件を特徴付ける。
大きな勾配ノルムを訓練中に抑えるための勾配ノルムクリッピングを提案する。
時を追うバックプロパゲーション時に勾配ノルムの維持を好む消失勾配正則化を導入する。
Theanoを用いて勾配を計算し、合成データと実データセットで検証する。

実験結果

リサーチクエスチョン

RQ1長期依存を持つRNNで勾配発散は発生するのか、どの条件下で起こるのか？
RQ2勾配ノルムクリッピングは訓練を安定化させ、長距離相関の学習を可能にするか？
RQ3ソフトな消失勾配正則化は、短期的な性能を損なうことなく長期依存の学習を改善するか？
RQ4提案手法は合成の病的タスクと実世界のシーケンスモデリングデータセットの両方でどう性能を示すか？
RQ5LSTMやHessian-freeなど既存戦略と比べて、性能と汎化性の点でどの程度優れているか？

主な発見

Data set	Data fold	SGD	SGD+C	SGD+CR
Piano-midi.de	train	6.87	6.81	7.01
Piano-midi.de	test	7.56	7.53	7.46
Nottingham	train	3.67	3.21	3.24
Nottingham	test	3.80	3.48	3.46
MuseData	train	8.25	6.54	6.51
MuseData	test	7.11	7.00	6.99
Penn Treebank	1 step	1.46	1.34	1.36
Penn Treebank	1 step	1.50	1.42	1.41
Penn Treebank	5 steps	N/A	3.76	3.70
Penn Treebank	5 steps	N/A	3.89	3.74

勾配ノルムベースのクリッピングは爆発的勾配を効果的に抑制し、訓練の安定性を向上させる。
ソフトな消失勾配正則化は、勾配流の厳密な等価を強制せず、有用な時間的依存性を保持するのに役立つ。
勾配クリッピングと正則化を組み合わせたSGD-CRは、長いシーケンスを要するメモリを必要とするタスク、長さ200までの時系列順序問題を含むを解く。
多声部音楽予測と言語モデリングでは、SGD-CRは複数データセットで現状の最先端結果を改善または一致させる。
クリッピングと正則化は、合成の病的問題と実世界のタスクの双方で強い経験的向上をもたらし、汎化性の改善も見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。