QUICK REVIEW

[論文レビュー] Depth Creates No Bad Local Minima

Haihao Lu, Kenji Kawaguchi|arXiv (Cornell University)|Feb 27, 2017

Stochastic Gradient Optimization Techniques参考文献 20被引用数 81

ひとこと要約

本論文は、深さだけが深層線形ネットワークにおける不良な局所極小値を生み出さないこと、全ての局所極小値が全局極小値となるのは full-row-rank 条件下であることを示す。さらに、深層線形ネットワークの平方損失におけるすべての局所極小値が全局極小値であるというより簡潔な証明を提供し、重要な定理の下で一般の損失関数へ拡張する。

ABSTRACT

In deep learning, extit{depth}, as well as extit{nonlinearity}, create non-convex loss surfaces. Then, does depth alone create bad local minima? In this paper, we prove that without nonlinearity, depth alone does not create bad local minima, although it induces non-convex loss surface. Using this insight, we greatly simplify a recently proposed proof to show that all of the local minima of feedforward deep linear neural networks are global minima. Our theoretical results generalize previous results with fewer assumptions, and this analysis provides a method to show similar results beyond square loss in deep linear models.

研究の動機と目的

深層学習における非凸損失面に対して、深さがどのように寄与するかを理解する動機づけ。
深さだけが深層線形ネットワークにおいて不良な局所極小値を生み出さないことを示す。
適切な条件の下で、前方伝播型深層線形ネットワークの全ての局所極小値が全局極小値であるというより簡潔な証明を提供する。
Frobenius（平方）損失を超え、重要な定理を満たす一般の損失関数へ結果を拡張する。
行列完成問題やより広範な非凸最適化問題への含意を論じる。

提案手法

L(W)=1/2 ||W_H ... W_1 X - Y||_F^2として、平方損失を用いた深層線形ネットワークの学習目的を定式化する。
深層問題を、rank(R) <= d_p を満たす浅いランク制約問題 F(R)=||RX-Y||_F^2 に関連付ける。
深層問題のすべての局所極小値が、浅い問題の局所極小値に対応することを証明する（Theorem 2.1）。
浅いランク制約付き問題のすべての局所極小値が全局極小値であることを示す（Theorem 2.2）。
深層線形ネットワークのすべての局所極小値が全局極小値であると結論づける（Theorem 2.3）。
SVD摂動結果とランクの考慮を利用した、構成的な摂動ベースの証明を提供する（ Lemmas 3.1–3.4 および Theorems 3.1–3.3）。

実験結果

リサーチクエスチョン

RQ1非線形性を伴わない depth のみが、深層線形ネットワークにおいて不良な局所極小値を導入するか。
RQ2深層線形ネットワークの局所極小値が、同等の浅いモデルの全局極小値に対応する条件は何か。
RQ3no-bad-local-minima 性質は、Frobenius（平方）損失を超えた一般の損失関数にも拡張できるか。
RQ4SVDの摂動理論を用いて、ランク制約の観点で深層と浅い定式を関連付けるにはどうすればよいか。

主な発見

平方損失を有する深層線形ネットワークの任意の局所極小値は、浅いランク制約付きモデルの対応する局所極小値を生み出す。
浅いランク制約付きモデルの入力 X が full-row-rank を持つ場合、すべての局所極小値は全局極小値である。
したがって、XとYが full-row-rank 条件を満たす場合、前向き伝播型の深層線形ネットワークの平方損失におけるすべての局所極小値は全局極小値である。
本結果は Kawaguchi (2016) を仮定を少なくして一般化し、Theorem 3.2 により平方損失を超えて拡張する。
このアプローチは、行列完成問題などの high probability の下で no-bad-local-minima の結果を拡張する道筋を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。