QUICK REVIEW

[論文レビュー] Fast Convergence of Natural Gradient Descent for Overparameterized Neural Networks

Guodong Zhang, James Martens|arXiv (Cornell University)|May 27, 2019

Stochastic Gradient Optimization Techniques参考文献 59被引用数 41

ひとこと要約

この論文は、自然勾配降下法（NGD）を非線形で過parameterizedなニューラルネットワーク上で適用した場合、ヤコビ行列の二条件のもとで全球収束と線形収束を証明し、結果をK-FACおよび一般の損失関数へ拡張しつつ良好な一般化を維持する。

ABSTRACT

Natural gradient descent has proven effective at mitigating the effects of pathological curvature in neural network optimization, but little is known theoretically about its convergence properties, especially for \emph{nonlinear} networks. In this work, we analyze for the first time the speed of convergence of natural gradient descent on nonlinear neural networks with squared-error loss. We identify two conditions which guarantee efficient convergence from random initializations: (1) the Jacobian matrix (of network's output for all training cases with respect to the parameters) has full row rank, and (2) the Jacobian matrix is stable for small perturbations around the initialization. For two-layer ReLU neural networks, we prove that these two conditions do in fact hold throughout the training, under the assumptions of nondegenerate inputs and overparameterization. We further extend our analysis to more general loss functions. Lastly, we show that K-FAC, an approximate natural gradient descent method, also converges to global minima under the same assumptions, and we give a bound on the rate of this convergence.

研究の動機と目的

神経網最適化における病的な曲率に対処するための自然勾配降下の活用を動機づける。
ランダム初期値からの効率的収束を保証するネットワーク Jacobian の単純で汎用的な条件を特定する。
過parameterizationと軽微な入力仮定の下で、2層 ReLU ネットワークの収束性を示す。
一般の損失関数および近似NGD法（例: K-FAC）への解析を拡張する。
NGD が一般化を損なうことなく、より速い収束を達成できることを示す。

提案手法

Fisher/ Gauss-Newton 行列を用いた NGD 更新を定義し、F が特異な場合にはその一般化逆を用いる。
ヤコビ行列に関する二つの条件を導入する： (i) 初期化時の全行ランク、(ii) 小さなパラメータ摂動に対するヤコビの安定性。
これらの条件の下で NGD の線形収束を、ステップサイズの上限とともに証明する。
乱数初期化と正規化入力を用いた具体的な過parameterized な2層 ReLUネットワークへ抽象的な解析を適用する。
同様の仮定と十分な過parameterizationの下で、K-FAC も線形収束して全球最小値へ到達することを示し、その収束速度はデータ Gram 行列に結びつく。

実験結果

リサーチクエスチョン

RQ1自然勾配降下が非線形で過parameterized なニューラルネットワークにおいて全球最適化へ収束する条件は何か。
RQ22層 ReLU ネットワークに対する収束率と学習率耐性の点で NGD は勾配降下とどう異なるか。
RQ32乗誤差を超える一般の損失関数に対して、NGD および K-FAC は理論的に全球収束を保証できるか。
RQ4NGD の一般化への影響は標準的な勾配降下と比べてどうなるか。

主な発見

ヤコビ行列が初期化時に全行ランクを持ち、近傍で安定している場合、NGD は線形収束を達成する。
過parameterizationされた2層 ReLU ネットワークにおいて、NGD は一定のステップサイズで収束し、無限幅極限では O(1) の反復で収束する。
前記の2層ネットワーク設定において、NGD は勾配降下に対して収束速度を O(lambda_min(G∞)/n) 増加させる。
同じ仮定と十分な過parameterizationの下で、K-FAC も全球最小値へ線形収束し、その速度はデータグラム行列に結ばれる。
NGD の一般化境界は2層 ReLU設定において勾配降下と同様に証明され、より速い収束にもかかわらず一般化の喪失がないことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。