Skip to main content
QUICK REVIEW

[論文レビュー] Random Walks: Training Very Deep Nonlinear Feed-Forward Networks with Smart Initialization.

David Sussillo|arXiv (Cornell University)|Dec 19, 2014
Stochastic Gradient Optimization Techniques被引用数 27
ひとこと要約

この論文は、勾配ノルムの変化をランダムウォークとしてモデル化することで、非常に深く全結合なネットワークのトレーニングに適したスマートな初期化手法を提案する。重み行列をスケーリングしてログ勾配ノルムのランダムウォークをバランスさせることで、勾配ノルムが深さの平方根に比例する安定したトレーニングを実現し、勾配消失を深さではなく幅の増加によって緩和する。

ABSTRACT

Training very deep networks is an important open problem in machine learning. One of many difficulties is that the norm of the back-propagated error gradient can grow or decay exponentially. Here we show that training very deep feed-forward networks (FFNs) is not as difficult as previously thought. Unlike when back-propagation is applied to a recurrent network, application to an FFN amounts to multiplying the error gradient by a different random matrix at each layer. We show that the successive application of correctly scaled random matrices to an initial vector results in a random walk of the log of the norm of the resulting vectors, and we compute the scaling that makes this walk unbiased. The variance of the random walk grows only linearly with network depth and is inversely proportional to the size of each layer. Practically, this implies a gradient whose log-norm scales with the square root of the network depth and shows that the vanishing gradient problem can be mitigated by increasing the width of the layers. Mathematical analyses and experimental results using stochastic gradient descent to optimize tasks related to the MNIST and TIMIT datasets are provided to support these claims. Equations for the optimal matrix scaling are provided for the linear and ReLU cases.

研究の動機と目的

  • 非常に深い全結合ネットワークにおける勾配の消失または爆発の問題に対処すること。
  • ランダムな重み行列を用いた深層FFNにおけるバックプロパゲーション中の勾配ノルムの変化を理解すること。
  • ログノルムが不偏なランダムウォークを示すようにすることで、勾配フローを安定化する最適な重みスケーリングを導出すること。
  • 勾配消失を軽減するために、深さではなく層の幅を増やすことが鍵であることを示すこと。

提案手法

  • バックプロパゲートされた勾配を、各層のスケーリングされたランダム重み行列による乗算の系列としてモデル化する。
  • 勾配ベクトルのログノルムをランダムウォークとして分析し、不偏なウォークとなる条件を導出する。
  • 線形およびReLU活性化付きのネットワークにおける重み行列の最適スケーリング要因を計算し、ランダムウォークを安定化させる。
  • ランダムウォークの分散が深さに比例し、層の幅に反比例することを根拠に初期化を指針とする。
  • ランダムウォークの性質に基づいて、線形およびReLUの場合の最適スケーリングの解析的表現を導出する。
  • MNISTおよびTIMITタスクにおける確率的勾配降下法を用いて、経験的に測定された勾配ノルムを用いて手法を検証する。

実験結果

リサーチクエスチョン

  • RQ1ランダムな重みを用いた非常に深い全結合ネットワークにおいて、バックプロパゲートされた勾配のノルムはどのように変化するか?
  • RQ2ログノルムが不偏なランダムウォークを示すために、重み行列をどのようにスケーリングすればよいか?
  • RQ3勾配ノルムのランダムウォークの分散は、ネットワークの深さと層の幅にどのように依存するか?
  • RQ4勾配分散を制御することで、層の幅を増やすことで非常に深いネットワークのトレーニングを安定化させられるか?
  • RQ5勾配の消失や爆発を防ぐために、線形およびReLU活性化付きの深層ネットワークに最適な初期化スケールは何か?

主な発見

  • バックプロパゲートされた勾配のログノルムは、ネットワークの深さに比例して増加するランダムウォークを示す。
  • 最適な重みスケーリングにより、ランダムウォークが不偏となることが保証され、勾配ノルムの系統的減少や爆発が防止される。
  • ランダムウォークの分散は、各層の幅に反比例するため、より広い層は勾配フローの安定化に寄与する。
  • その結果、勾配の期待値の大きさは深さの平方根に比例するが、指数関数的に増加しない。
  • MNISTおよびTIMITにおける経験的結果から、提案された初期化手法により、非常に深いネットワークの安定したトレーニングが可能であることが示された。
  • 線形およびReLUネットワークにおける導出されたスケーリング則は、実際の応用において有効であることが確認され、数百層にわたる層でも勾配ノルムが安定したまま維持された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。