QUICK REVIEW

[論文レビュー] Deep Learning without Poor Local Minima

Kenji Kawaguchi|arXiv (Cornell University)|May 23, 2016

Sparse and Compressive Sensing Techniques参考文献 12被引用数 23

ひとこと要約

この論文は、深層線形ニューラルネットワークにおいて、すべての局所的最小値がグローバル最小値であり、すべての非グローバルな臨界点が負の固有値をもつサドル点であることを証明し、長年の予想を解決した。さらに、独立性仮定の下で、深層非線形ネットワークに対しても同様の結果を拡張し、悪い局所的最小値の不在により、深層モデルの学習が理論的に tractable であることを示した。

ABSTRACT

In this paper, we prove a conjecture published in 1989 and also partially address an open problem announced at the Conference on Learning Theory (COLT) 2015. With no unrealistic assumption, we first prove the following statements for the squared loss function of deep linear neural networks with any depth and any widths: 1) the function is non-convex and non-concave, 2) every local minimum is a global minimum, 3) every critical point that is not a global minimum is a saddle point, and 4) there exist "bad" saddle points (where the Hessian has no negative eigenvalue) for the deeper networks (with more than three layers), whereas there is no bad saddle point for the shallow networks (with three layers). Moreover, for deep nonlinear neural networks, we prove the same four statements via a reduction to a deep linear model under the independence assumption adopted from recent work. As a result, we present an instance, for which we can answer the following question: how difficult is it to directly train a deep model in theory? It is more difficult than the classical machine learning models (because of the non-convexity), but not too difficult (because of the nonexistence of poor local minima). Furthermore, the mathematically proven existence of bad saddle points for deeper models would suggest a possible open problem. We note that even though we have advanced the theoretical foundations of deep learning and non-convex optimization, there is still a gap between theory and practice.

研究の動機と目的

深層線形ニューラルネットワークの最適化の姿の長年の予想（1989年）を解決すること。
COLT 2015で提起された、深層非線形ネットワークにおける悪い局所的最小値の不在という未解決問題に取り組むこと。
深層線形ネットワークにおいて、すべての局所的最小値がグローバル最小値であり、すべての非グローバルな臨界点がヘッセ行列に負の固有値をもつサドル点であることを確立すること。
独立性仮定の下で、非線形ネットワークを線形ケースに還元することで、これらの発見を深層非線形ネットワークに拡張すること。
非凸性にもかかわらず、深層学習最適化の理論的 tractability を明確にすること。

提案手法

任意の深さと幅を持つ深層線形ニューラルネットワークの二乗損失関数を分析する。
行列分解と臨界点解析を用いて、損失関数の姿を特徴づけ、ヘッセ行列と固有値構造に注目する。
先行研究からの独立性仮定を適用し、非線形ネットワークを理論的解析のための同等の線形モデルに還元する。
補題4.1および4.2を用いて、データ行列 $\Sigma = YX^T(XX^T)^{-1}XY^T$ の項で臨界点の正確な表現を導出する。
パラメータ化の影響により、深層ネットワークと浅層ネットワークの間で臨界点構造が異なることを示し、従来の直感的ないくつかの崩壊的議論を否定する。
悪いサドル点（負の固有値をもたないもの）が、3層を超えるより深いネットワークにのみ存在することを証明する。

実験結果

リサーチクエスチョン

RQ1深層線形ネットワークの二乗損失において、すべての局所的最小値がグローバル最小値であるか？
RQ2深層線形ネットワークの非グローバルな臨界点は、ヘッセ行列において負の固有値をもつのか、それとも「悪い」サドル点なのか？
RQ3独立性仮定の下で、深層非線形ネットワークの最適化の姿を深層線形ネットワークへの還元によって解析可能か？
RQ4ネットワークの深さが、損失関数面上の「悪い」サドル点（負の固有値をもたないもの）の存在に果たす役割は何か？
RQ5モデル表現力に基づく従来の直感的議論が、深さの異なる層間で臨界点構造を保存しないのはなぜか？

主な発見

任意の深さと幅を持つ深層線形ネットワークにおいて、損失関数が非凸かつ非凹であっても、すべての局所的最小値がグローバル最小値である。
深層線形ネットワークの非グローバルな臨界点は、すべてヘッセ行列に少なくとも一つの負の固有値をもつサドル点であるが、3層を超えるより深いネットワークでは「悪い」サドル点（負の固有値をもたないもの）が存在する。
悪いサドル点は、3層を超えるより深いネットワーク（H > 3）にのみ存在し、3層の浅層ネットワーク（H = 3）にはそれらが存在しない。これは、最適化の難易度が深さに依存することを示している。
証明により、モデル表現力とランクの等価性に基づく従来の直感的推論が失敗する理由が明らかになった。異なるパラメータ化が、異なる臨界点構造を生み出すからである。
深層非線形ネットワークにおいて、独立性仮定の下では、線形ケースと同様に、悪い局所的最小値がなく、サドル点のみが存在するという良好な損失関数の姿が保たれる。
理論的結果により、悪い局所的最小値の不在により、深層モデルの学習がNP困難な問題ほど困難ではないことが確認された。ただし、より深いモデルにおける悪いサドル点は依然として課題を引き起こす可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。