QUICK REVIEW

[論文レビュー] A Convergence Analysis of Gradient Descent for Deep Linear Neural Networks

Sanjeev Arora, Nadav Cohen|arXiv (Cornell University)|Oct 4, 2018

Stochastic Gradient Optimization Techniques参考文献 39被引用数 113

ひとこと要約

本論文は、白色化されたデータ上で 2-norm 損失により訓練される深層線形ネットワークに対して、勾配降下法がグローバルミニマムへ線形収束することを証明する。近似的な balancedness（バランス性）と deficiency margin（欠陥マージン）初期化の下で適用される。

ABSTRACT

We analyze speed of convergence to global optimum for gradient descent training a deep linear neural network (parameterized as $x \mapsto W_N W_{N-1} \cdots W_1 x$) by minimizing the $\ell_2$ loss over whitened data. Convergence at a linear rate is guaranteed when the following hold: (i) dimensions of hidden layers are at least the minimum of the input and output dimensions; (ii) weight matrices at initialization are approximately balanced; and (iii) the initial loss is smaller than the loss of any rank-deficient solution. The assumptions on initialization (conditions (ii) and (iii)) are necessary, in the sense that violating any one of them may lead to convergence failure. Moreover, in the important case of output dimension 1, i.e. scalar regression, they are met, and thus convergence to global optimum holds, with constant probability under a random initialization scheme. Our results significantly extend previous analyses, e.g., of deep linear residual networks (Bartlett et al., 2018).

研究の動機と目的

勾配ベースの最適化が深層線形ネットワークでなぜ機能し得るかを動機づけ、分析する。
任意の深さに対して、勾配降下法がグローバルミニマムへ線形収束する条件を確立する。
収束を保証する初期化特性（ balancedness と deficiency margin ）を特徴づける。
残差ネットワークを越えて一般的な深層線形アーキテクチャへ軌道ベースの解析を拡張する。

提案手法

端から端への重み W_{1:N} = W_N ... W_1 による深層線形ネットワークをモデル化し、 whitened data の上で L^N 損失を最小化する。
訓練を、ターゲット行列 Phi への Frobenius 距離を最小化する問題として表現する： L^1(W)=0.5||W- Phi||_F^2、Phi = Lambda_{yx}。
近似的 balancedness(W_{j+1}^T W_{j+1} ≈ W_j W_j^T) と deficiency margin（希少性の欠如により Phi への距離が下界を設けられる）を導入・形式化する。
sigma_min(W_{1:N}) がゼロから離れて下がらない限り、各ステップで L^1(W_{1:N}) が減少する軌道ベースの降下補題を証明する。
明示的な初期化条件と適切な学習率の下で線形速度収束定理を導出し、O(log(1/ε)) 回の反復で誤差 ε を達成する。

実験結果

リサーチクエスチョン

RQ1白色化データ上で 2-norm 損失を用いて訓練した深層線形ネットワークにおいて、勾配降下法はグローバルミニマムへ収束する条件は何か。
RQ2隠れ層の次元、初期化のバランス、欠陥マージンは、任意のネットワーク深さに対して収束速度と保証にどのように影響するか。
RQ3軌道ベースの解析は、浅い設定や残差線形設定を越えて、一般的な深層線形アーキテクチャへ収束結果を拡張できるか。
RQ4ランダム初期化の下で、スカラー回帰（出力次元 1）の場合、収束に必要な条件を満たす確率はどの程度か。

主な発見

グラデイント降下法は、(i) 隠れ次元が入力次元と出力次元のいずれかより大きい場合、(ii) 初期化が約対数的に balanced な重みをもたらす場合、(iii) 初期損失が任意のランク欠損解の損失より小さい場合に、グローバルミニマムへ線形速度で収束する。
これらの初期化条件は必要であり、いずれかを満たさないと収束が失敗する可能性がある。
スカラー回帰（出力次元 1）の場合、一般的なランダム近ゼロ初期化の下で、必要な初期化条件は一定の確率で満たされる。
深層線形残差ネットワークに関する既存の結果を、任意の深さ・幅の構成へ一般化する。
欠陥マージンは、サブレベル集合内のすべての点がエンドツーエンドの mappings が全秩であることを意味し、 approx balancedness と組み合わせると収束保証を強化する。
定理1 は ε 精度を達成するための明示的な反復境界 T ≥ (1/(η c^{2(N-1)/N})) log(ℓ(0)/ε) を提供し、 balanced および margin によって降下を保証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。