[論文レビュー] On the Selection of Initialization and Activation Function for Deep Neural Networks
論文は、深層ニューラルネットにおける情報と勾配の伝播に影響を与えるエッジオブカオスでの初期化と活性化関数を分析し、Swishおよび関連のReLU様の活性化がReLUのような関数よりも情報の流れを改善することを示します。
The weight initialization and the activation function of deep neural networks have a crucial impact on the performance of the training procedure. An inappropriate selection can lead to the loss of information of the input during forward propagation and the exponential vanishing/exploding of gradients during back-propagation. Understanding the theoretical properties of untrained random networks is key to identifying which deep networks may be trained successfully as recently demonstrated by Schoenholz et al. (2017) who showed that for deep feedforward neural networks only a specific choice of hyperparameters known as the `edge of chaos' can lead to good performance. We complete this analysis by providing quantitative results showing that, for a class of ReLU-like activation functions, the information propagates indeed deeper for an initialization at the edge of chaos. By further extending this analysis, we identify a class of activation functions that improve the information propagation over ReLU-like functions. This class includes the Swish activation, $ϕ_{swish}(x) = x \cdot ext{sigmoid}(x)$, used in Hendrycks & Gimpel (2016), Elfwing et al. (2017) and Ramachandran et al. (2017). This provides a theoretical grounding for the excellent empirical performance of $ϕ_{swish}$ observed in these contributions. We complement those previous results by illustrating the benefit of using a random initialization on the edge of chaos in this context.
研究の動機と目的
- 無限幅における深層ニューラルネットワークにおける初期化が前方情報伝播に与える影響を理解する。
- エッジオブカオスを特徴づけ、勾配フローと情報保持への影響を明らかにする。
- ReLUに類する関数を超える情報伝播を高める活性化関数を特定する。
- 深層アーキテクチャにおけるSwishおよび他の非ReLU活性化関数の理論的基盤を提供する。
提案手法
- ガウス分布の乱数重みとバイアスを用いて深い全結合ネットをモデル化する。
- Gaussianプロセス近似を用いて層間の再帰的な分散と共分散カーネルを導出する。
- 特定の活性化関数の下で分散と相関の収束領域を定義する。
- 固定点と導関数を通じてエッジオブカオス上の相関関数 f を導出・解析する。
- エッジオブカオスで情報流を維持するための十分条件(命題4)を活性化関数に提案する。
- Swish がこれらの条件を満たすことを示し、ReLU様の活性化と比較する。
実験結果
リサーチクエスチョン
- RQ1エッジオブカオスでの初期化は深層ネットワークにおける深さ方向の情報伝播にどのように影響するか?
- RQ2エッジオブカオスで情報の流れと勾配の安定性を最適化する活性化関数の特性は何か?
- RQ3Swish に類似した活性化は深層ネットワーク全体で ReLU よりも良い情報伝播を提供できるか?
- RQ4エッジオブカオスで相関ダイナミクスがほぼ同一性に近づくことを保証する活性化関数の十分条件は何か?
主な発見
- エッジオブカオスでは、ReLU様の活性化で相関が1へ収束する速度が遅く、深さのスケールが多項式的になり、指数的にはならない。
- 命題4を満たす一連の活性化関数が情報の流れを改善し、Swishも含まれる。
- Swish 活性化は提案された条件を満たし、情報伝播の改善と勾配の非消滅を提供する。
- Swish は深さに応じてより多様なネットワーク出力をもたらす可能性があり、より豊かな事前関数の挙動を示唆する。
- ReLUを超える活性化選択肢としての Tanh や ELU様の関数などは、特定された伝播条件を満たす可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。