QUICK REVIEW

[論文レビュー] Improving performance of recurrent neural network with relu nonlinearity

Sachin S. Talathi, Aniket Vartak|arXiv (Cornell University)|Nov 12, 2015

Neural Networks and Applications参考文献 23被引用数 66

ひとこと要約

本論文は、IRNNにおける単位行列初期化の力学的システム解析に裏付けられた、ReLUベースの再帰的ニューラルネットワーク（np-RNN）の正規化された正定値重み初期化戦略を提案する。この手法は、入力摂動に対する隠れ状態の感度を低減し、より安定した学習を実現し、長距離シーケンスタスク（MNISTピクセルシーケンスタスクやUCF-101アクション認識を含む）における性能を向上させる。np-RNNは75.2%のテスト精度を達成し、IRNNやiRNNを上回り、LSTMに近い性能を示しながらも、より低い複雑性を維持する。

ABSTRACT

In recent years significant progress has been made in successfully training recurrent neural networks (RNNs) on sequence learning problems involving long range temporal dependencies. The progress has been made on three fronts: (a) Algorithmic improvements involving sophisticated optimization techniques, (b) network design involving complex hidden layer nodes and specialized recurrent layer connections and (c) weight initialization methods. In this paper, we focus on recently proposed weight initialization with identity matrix for the recurrent weights in a RNN. This initialization is specifically proposed for hidden nodes with Rectified Linear Unit (ReLU) non linearity. We offer a simple dynamical systems perspective on weight initialization process, which allows us to propose a modified weight initialization strategy. We show that this initialization technique leads to successfully training RNNs composed of ReLUs. We demonstrate that our proposal produces comparable or better solution for three toy problems involving long range temporal structure: the addition problem, the multiplication problem and the MNIST classification problem using sequence of pixels. In addition, we present results for a benchmark action recognition problem.

研究の動機と目的

ReLUベースのRNN（IRNN）における単位行列初期化の力学的システム的挙動を調査し、学習安定性に与える影響を明らかにすること。
IRNNの隠れ状態が入力摂動に対して感受性が高いため、ハイパーパramータ依存性が増大する問題を解消すること。
隠れ状態ダイナミクスを1次元多様体へ収縮させることで、ダイナミクスの安定化を図る新たな重み初期化戦略を提案すること。
提示されたnp-RNNをトゥイ・プロブレムおよび実世界のベンチマークで評価し、IRNN、iRNN、LSTMと性能を比較すること。
LSTMに comparable な性能を示しながらも、より低い複雑性を維持するRNNの代替手法を開発すること。

提案手法

力学的システム解析に基づき、ReLU RNNにおける再帰的重み行列に正規化された正定値行列を提案する。
単位行列初期化下でのReLU RNNの固定点ダイナミクスを分析し、中立的安定性と入力摂動に対する高い感受性を同定する。
再帰的重み行列を正規化された正定値形式に制約することで、ダイナミクス感受性を低減するnp-RNN初期化を設計する。
すべてのRNNモデルで、学習率スケジューリングとドロップアウトによる正則化を伴うRMSProp最適化を採用する。
UCF-101アクション認識ベンチマークでは、ImageNetから事前学習されたGoogLeNet特徴量を入力として使用する。
ハイパーパramータチューニングのため、学習率（10⁻⁵から10⁻²）とドロップアウト率（0.5、0.7、0.9）のグリッドサーチを実施する。

実験結果

リサーチクエスチョン

RQ1ReLU RNNにおける単位行列初期化が、隠れ状態の力学的安定性にどのように影響を与えるか？
RQ2なぜIRNNの性能はハイパーパramータの選択に極めて感受性が高く、その問題は緩和可能か？
RQ3改良された重み初期化戦略により、隠れ状態の感受性を低減し、学習のロバスト性を向上させられるか？
RQ4提示されたnp-RNNは、長距離時系列シーケンスタスクにおいてIRNNやiRNNと比較して優れた性能を示すか？
RQ5np-RNNは、実世界のベンチマークでLSTMに匹敵する性能を示しながらも、より低いモデル複雑性を維持できるか？

主な発見

UCF-101アクション認識ベンチマークにおいて、np-RNNは75.2%のテスト精度を達成し、IRNN（67%）やiRNN（56.6%）を上回った。
学習率およびドロップアウト値における検証精度プロットから、np-RNNはIRNNやiRNNよりもハイパーパramータ選択に対してよりロバストであることが示された。
MNISTピクセルシーケンスタスクにおいて、np-RNNはすべての評価ベンチマークでIRNNやiRNNと同等または優れた性能を示した。
正規化された正定値初期化により、入力摂動に対する隠れ状態の感受性が低減され、より安定した学習ダイナミクスが実現した。
np-RNNはLSTM（78.5%のテスト精度）に近い性能を達成しながらも、LSTMの4倍のパラメータ数を持つにもかかわらず、より低い計算複雑性を維持した。
提案手法は、モバイルプラットフォームにおけるシーケンスモデリングのための安定的かつ低複雑性なLSTM代替手段を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。