QUICK REVIEW

[論文レビュー] Provable Benefit of Orthogonal Initialization in Optimizing Deep Linear Networks

Wei Hu, Lechao Xiao|arXiv (Cornell University)|Jan 16, 2020

Speech Recognition and Synthesis参考文献 27被引用数 34

ひとこと要約

本論文は直交初期化が深層線形ネットワークにおける勾配降下法の収束を加速し、幅の要件が深さに依存しないことを示す。対照的にガウス初期化では幅は深さに対して線形に増加する必要がある。

ABSTRACT

The selection of initial parameter values for gradient-based optimization of deep neural networks is one of the most impactful hyperparameter choices in deep learning systems, affecting both convergence times and model performance. Yet despite significant empirical and theoretical analysis, relatively little has been proved about the concrete effects of different initialization schemes. In this work, we analyze the effect of initialization in deep linear networks, and provide for the first time a rigorous proof that drawing the initial weights from the orthogonal group speeds up convergence relative to the standard Gaussian initialization with iid weights. We show that for deep networks, the width needed for efficient convergence to a global minimum with orthogonal initializations is independent of the depth, whereas the width needed for efficient convergence with Gaussian initializations scales linearly in the depth. Our results demonstrate how the benefits of a good initialization can persist throughout learning, suggesting an explanation for the recent empirical successes found by initializing very deep non-linear networks according to the principle of dynamical isometry.

研究の動機と目的

初期化が深層線形ネットワークにおける勾配降下法の収束速度に与える影響を評価する。
直交初期化とガウス初期化の厳密な比較を提供する。
異なる初期化における効率的な収束のための深さと幅のトレードオフを示す。
動的等長性の利点が深層線形領域の訓練を通じて持続することを示す。

提案手法

W1,...,WL を重みにとる L 層線形ネットワークに対して勾配降下法を分析する。
入力ノルムを期待値で保持するために幅 m の直交初期化とスケーリング α を用いる。
ネットワーク出力 U(t) の更新を支配する時刻発展する PSD 行列 P(t) を導出する。
P(t) の固有値に対する境界を証明し、収束を保証するために高次項 E(t) を制御する。
ガウス初期化と比較し、深さと幅が連動しない場合に深さに指数的に依存する収束障壁が生じることを証明する。
理論的主張を補完するため、合成データでの実験的証拠を提供する。

実験結果

リサーチクエスチョン

RQ1直交初期化はガウス初期化と比べて深層線形ネットワークにおける勾配降下法の収束を加速しますか？
RQ2直交初期化の下で効率的な収束を保証するために、隠れ層の幅 m は深さ L に対してどのようにスケールすべきですか？
RQ3直交初期化により、効率的な収束に必要な幅の深さ依存性は排除されますか？
RQ4理論的結果は初期化を超えた訓練ダイナミクスにも適用されますか？

主な発見

直交初期化の下では、深さ L に依存しない幅 m でグローバルミニマムへ効率的に収束する。
ガウス初期化では、効率的な収束に必要な幅は深さ L に対して線形にスケールする。
直交初期化は訓練中に等長性の性質を保持し、訓練ダイナミクスの固有値挙動を有利にする。
ガウス初期化では、幅が深さに対して小さすぎると勾配降下法の収束が指数的に遅くなる。
合成データでの経験的な結果は、直交初期化で必要な幅が深さに依存しないことと、ガウス初期化で深さ依存性があることを裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。