QUICK REVIEW

[論文レビュー] Random Walk Initialization for Training Very Deep Feedforward Networks

David Sussillo, L. F. Abbott|arXiv (Cornell University)|Dec 19, 2014

Stochastic Gradient Optimization Techniques参考文献 7被引用数 70

ひとこと要約

本稿では、非常に深い順方向ネットワークにおける勾配の流れを安定化させるために、バックプロパゲーションされた誤差勾配の対数ノルムが不偏なランダムウォークを示すように保証する、ランダムウォーク初期化（RW-I）と呼ばれる新しい重み初期化手法を提案する。解析的に最適なスケーリング係数 $ g $ を導出することで、勾配ノルムの変動が深さの平方根に比例して増大するのを制限し、MNIST および TIMIT において 1000 層のネットワークをほぼゼロの訓練誤差で成功裏に訓練可能にする。

ABSTRACT

Training very deep networks is an important open problem in machine learning. One of many difficulties is that the norm of the back-propagated error gradient can grow or decay exponentially. Here we show that training very deep feed-forward networks (FFNs) is not as difficult as previously thought. Unlike when back-propagation is applied to a recurrent network, application to an FFN amounts to multiplying the error gradient by a different random matrix at each layer. We show that the successive application of correctly scaled random matrices to an initial vector results in a random walk of the log of the norm of the resulting vectors, and we compute the scaling that makes this walk unbiased. The variance of the random walk grows only linearly with network depth and is inversely proportional to the size of each layer. Practically, this implies a gradient whose log-norm scales with the square root of the network depth and shows that the vanishing gradient problem can be mitigated by increasing the width of the layers. Mathematical analyses and experimental results using stochastic gradient descent to optimize tasks related to the MNIST and TIMIT datasets are provided to support these claims. Equations for the optimal matrix scaling are provided for the linear and ReLU cases.

研究の動機と目的

非常に深い順方向ネットワーク（FFNs）における消失勾配問題に対処すること。これは、従来、数打つの層を越えるネットワークの学習を妨げてきた。
バックプロパゲーション中に連続的に適用されるランダム重み行列が、FFNs における勾配ノルムの進化に与える影響を分析すること。これは、再帰的ネットワークと対比して行う。
対数勾配ノルムが不偏なランダムウォークを示すように保証する、原理的で整合性のある初期化手法「ランダムウォーク初期化」を導出すること。これにより、勾配の指数的減少や爆発を最小限に抑える。
実世界のデータセット（MNIST、TIMIT）を用いた実験的検証を通じて、確率的勾配降下法を用いた場合に、極めて深いネットワークの訓練が可能であることを示す。

提案手法

各層が i.i.d. ガウス重み行列（分散 $ 1/N $）をスケーリング係数 $ g $ で拡大するランダム行列モデルを提案。これは勾配のバックプロパゲーションダイナミクスを模擬する。
誤差勾配ベクトルの対数ノルムの進化をランダムウォークとして分析し、成長率と減衰率をバランスさせることで、不偏なランダムウォークの条件を導出する。
最適な $ g $ の解析的表現を導出：ReLU ネットワークでは $ g = \sqrt{2 / (1 + \text{var}(f'(a)))} $、線形ネットワークでは $ g = \sqrt{2 / \text{tr}(\mathbf{W}^T \mathbf{W})} $。これにより、勾配ノルムのスケーリングが安定化する。
深さにかかわらず固定されたパラメータ制限を用いた確率的勾配降下法を採用。理論的に導出した $ g $ 値を用いて、深さ 1000 層に達するネットワークの訓練を実施。
訓練誤差と深さの対数線形プロットを用いて、$ \lambda_{in} $、$ \lambda_{out} $、$ g $ のようなハイパーパramータの影響を可視化し、勾配の安定性と性能を評価。
分類タスク（MNIST）およびオートエンコーダータスク（MNIST、TIMIT）の両方で手法を検証。$ g $ が適切に設定された場合、深さにかかわらず一貫した性能を示す。

実験結果

リサーチクエスチョン

RQ1非常に深い順方向ネットワークにおける勾配ノルムは、再帰的ネットワークと同様に深さとともに指数的に増大するか、減少するか？
RQ2ランダム重み行列のスケーリングを制御することで、非常に深い順方向ネットワークにおけるバックプロパゲーションされた勾配ノルムを安定化させることは可能か？
RQ3対数勾配ノルムの不偏なランダムウォークを実現する最適なスケーリング係数 $ g $ は何か？これにより、深さに伴う分散の増大が最小限に抑えられる。
RQ4本初期化手法を用いて、実世界のデータセット（例：1000 層）で非常に深い順方向ネットワークを実際に訓練することは可能か？

主な発見

適切に選ばれた重みスケーリング係数 $ g $ を用いることで、非常に深い順方向ネットワークにおけるバックプロパゲーションされた誤差勾配の対数ノルムは不偏なランダムウォークを示す。分散は深さに比例し、層幅 $ N $ に反比例して増大する。
勾配ノルムは深さの平方根に比例してスケーリングされる。指数的増大ではなく、したがって適切に初期化された非常に深い FFNs では、消失勾配問題が顕著に軽減される。
ReLU ネットワークでは最適な $ g $ が $ \sqrt{2 / (1 + \text{var}(f'(a)))} $ であり、初期化時に $ f'(a) = 1 $ であれば $ \sqrt{2} $ に簡略化され、不偏なランダムウォーク挙動が保証される。
1000 層のネットワークを用いた MNIST 実験では、ランダムウォーク初期化を用いることで約 50 個の誤りで訓練誤差を達成。これにより、極めて深いネットワークの訓練が可能であることを示した。
TIMIT データセットでは、深さ 16 で最高の性能が得られ、深さ 32 はほぼ同等で、深さの増加に明確な利点は見られなかったが、適切な初期化のもとで依然として訓練可能であった。
本手法は 1 階微分最適化（SGD）に対しても有効であるが、極めて深いネットワーク（例：1000 層）では学習率スケジューリングや曲率の問題が顕著になり、訓練を安定化させるために $ g > 1 $ が必要となる場合がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。