QUICK REVIEW

[論文レビュー] Theoretical properties of the global optimizer of two layer neural network

Digvijay Boob, Guanghui Lan|arXiv (Cornell University)|Oct 30, 2017

Neural Networks and Applications参考文献 13被引用数 27

ひとこと要約

本稿では、微分可能で区分的線形でない活性化関数を備えた2層ニューラルネットワークについて、隠れ層が非特異である限り、1次最適性がグローバル最適性を意味することを確立している。目的関数がリプシッツ滑らかであることを証明し、勾配ベースの手法におけるO(1/k)収束を可能にするとともに、確率的アルゴリズムが有限反復の間、非特異性を維持することを示している。

ABSTRACT

In this paper, we study the problem of optimizing a two-layer artificial neural network that best fits a training dataset. We look at this problem in the setting where the number of parameters is greater than the number of sampled points. We show that for a wide class of differentiable activation functions (this class involves "almost" all functions which are not piecewise linear), we have that first-order optimal solutions satisfy global optimality provided the hidden layer is non-singular. Our results are easily extended to hidden layers given by a flat matrix from that of a square matrix. Results are applicable even if network has more than one hidden layer provided all hidden layers satisfy non-singularity, all activations are from the given "good" class of differentiable functions and optimization is only with respect to the last hidden layer. We also study the smoothness properties of the objective function and show that it is actually Lipschitz smooth, i.e., its gradients do not change sharply. We use smoothness properties to guarantee asymptotic convergence of O(1/number of iterations) to a first-order optimal solution. We also show that our algorithm will maintain non-singularity of hidden layer for any finite number of iterations.

研究の動機と目的

2層ニューラルネットワークにおける1次最適性がグローバル最適性を意味する理論的条件を確立すること。
特にリプシッツ滑らかさに注目したニューラルネットワーク目的関数の滑らかさ特性を分析すること。
有限反復の間、確率的最適化手法が隠れ層の非特異性を維持できることを示すこと。
非凸的で滑らかな目的関数の下で勾配ベースのアルゴリズムの収束レートを導出すること。
非特異性および区分的線形でない活性化関数の制約の下で、結果をより深いネットワークに拡張すること。

提案手法

微分可能で区分的線形でない活性化関数に対して、隠れ層が非特異であれば、1次最適解はグローバル最適であることを証明する。
目的関数がリプシッツ滑らかであることを示し、パラメータの微小な摂動に対して勾配がゆっくりと変化することを意味する。
滑らかさを用いて、ε-近似1次最適解を求める勾配降下法の収束レートがO(1/k)であることを導出する。
分散が有界な確率的勾配法を適用し、有限反復の間、隠れ層の非特異性を維持する。
最終隠れ層のみを最適化することで、より深いネットワークへの結果の拡張を図り、非特異性および区分的線形でない活性化関数を保証する。
変分解析および行列摂動理論を用いて、勾配ダイナミクスと収束挙動を分析する。

実験結果

リサーチクエスチョン

RQ1非線形活性化関数を有する2層ニューラルネットワークにおいて、1次最適性がグローバル最適性を意味するのはどのような条件下か？
RQ22層ニューラルネットワークの目的関数はリプシッツ滑らかか？その最適化への影響は何か？
RQ3有限反復の間、確率的最適化手法が隠れ層の非特異性を保持できるか？
RQ4活性化関数の選択が1次解のグローバル最適性にどのように影響するか？
RQ5非凸的で滑らかなニューラルネットワーク目的関数に対して、勾配ベースの手法の収束レートはどのように保証できるか？

主な発見

微分可能で区分的線形でない活性化関数の広いクラスに対して、隠れ層が非特異であれば、1次最適解はグローバル最適である。
2層ニューラルネットワークの目的関数はリプシッツ滑らかであり、パラメータ更新に伴い勾配が急激に変化しないことを保証する。
確率的勾配降下法は、すべての有限反復において隠れ層の非特異性を維持でき、グローバル収束の保証が可能である。
リプシッツ滑らかさの下で、ε-近似1次最適解を求める勾配降下法の収束レートがO(1/k)であることが達成される。
勾配の期待ノルムに対する収束境界はO(1/N_o)にスケーリングされ、初期目的値、半径R、および分散パラメータに明示的な依存関係を示す。
すべての隠れ層が非特異で、すべての活性化関数が「良い」関数クラスに属する限り、結果はより深いネットワークに拡張可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。