[論文レビュー] Resurrecting the sigmoid in deep learning through dynamical isometry: theory and practice
この論文は深層ネットワークにおける全てのヤコビ行列の特異値分布を解析し、ReLUがダイナミカル・アイソメトリを維持できない一方で直交のシグモイド網は可能であることを示し、実践的にははるかに速い学習とより良い一般化をもたらすことを明らかにしている。
It is well known that the initialization of weights in deep neural networks can have a dramatic impact on learning speed. For example, ensuring the mean squared singular value of a network's input-output Jacobian is $O(1)$ is essential for avoiding the exponential vanishing or explosion of gradients. The stronger condition that all singular values of the Jacobian concentrate near $1$ is a property known as dynamical isometry. For deep linear networks, dynamical isometry can be achieved through orthogonal weight initialization and has been shown to dramatically speed up learning; however, it has remained unclear how to extend these results to the nonlinear setting. We address this question by employing powerful tools from free probability theory to compute analytically the entire singular value distribution of a deep network's input-output Jacobian. We explore the dependence of the singular value distribution on the depth of the network, the weight initialization, and the choice of nonlinearity. Intriguingly, we find that ReLU networks are incapable of dynamical isometry. On the other hand, sigmoidal networks can achieve isometry, but only with orthogonal weight initialization. Moreover, we demonstrate empirically that deep nonlinear networks achieving dynamical isometry learn orders of magnitude faster than networks that do not. Indeed, we show that properly-initialized deep sigmoidal networks consistently outperform deep ReLU networks. Overall, our analysis reveals that controlling the entire distribution of Jacobian singular values is an important design consideration in deep learning.
研究の動機と目的
- 深さ、重み初期化、非線形性に依存する入力-出力のヤコビ行列の全特異値分布を理解する。
- 初期化と非線形性の組み合わせのうち、ダイナミカル・アイソメトリ(全ての特異値がほぼ1)を達成できるものを特定する。
- ダイナミカル・アイソメトリと深層非線性ネットワークの学習速度と一般化の相関を定量化する。
- 学習効率を改善するためのネットワーク設計と初期化の実践的指針を提供する。
提案手法
- free probabilityとS-transform手法を用いて大幅な幅のリミットで入力-出力ヤコビ行列Jの全特異値密度を計算する。
- 様々な非線形形状と重み集合(Gaussianと直交)に対するWW^TとD^2のS-変換の表現を導出する。
- 線形、ReLU、およびhard-tanhネットワークを分析してダイナミカル・アイソメトリの見込みを比較する。
- J J^Tのスペクトラムを最大固有値や固有値分布の分散といった指標を通じて学習ダイナミクスと関連づける。
- 理論的予測を数値シミュレーションとCIFAR-10実験で検証し、異なる初期化下での学習速度を評価する。
実験結果
リサーチクエスチョン
- RQ1ネットワーク深さ、重み統計、非線形性に依存してヤコビ特異値の全分布はどう変化するか?
- RQ2ダイナミカル・アイソメトリを達成できる重み初期化と非線形性の組み合わせは何か(全特異値が近く1になる)?
- RQ3ダイナミカル・アイソメトリを達成する非線形ネットワークはそうでないものより速く学習するのか、アーキテクチャと最適化の影響は?
主な発見
- ReLUネットワークはダイナミカル・アイソメトリを達成できず、深さに対してヤコビスペクトルは依然として不良に近い。
- 直交シグモイド網はダイナミカル・アイソメトリを実現可能で、最大特異値が深さが増してもO(1)のままであるのに対し、GaussianやReLUの場合はそうでない。
- ガウス初期化では臨界点でもダイナミカル・アイソメトリを維持できず、最大固有値とスペクトル分散が深さとともに増加する。
- 直交のhard-tanhネットワークでは、固定点での分散q*を下げ、線形領域の比率p(q*)を高めることでダイナミカル・アイソメトリに近づけられる。
- 経験的には直交tan hネットワークがCIFAR-10でReLUネットワークより数オーダー速く学習し、学習時間は深さと非線形の関係でサブ線形(おおよそO(sqrt(L)))にスケールする。
- 初期化時のダイナミカル・アイソメトリは学習のかなりの部分に持続し得る場合があり、初期の非零なq*が学習速度と一般化の両方を最適化することもある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。