Skip to main content
QUICK REVIEW

[論文レビュー] Neural Networks with Finite Intrinsic Dimension have no Spurious Valleys

Luca Venturi, Afonso S. Bandeira|arXiv (Cornell University)|Feb 18, 2018
Stochastic Gradient Optimization Techniques参考文献 5被引用数 19
ひとこと要約

この論文は、2層ニューラルネットワークが滑らかで非線形の活性化関数を備える場合、隠れ層のサイズが再現カーネル空間の内因的次元に一致すると、損失関数の局所的構造に偽の谷(spurious valleys)が存在しなくなることを証明している。このトポロジー的保証により、勾配降下法が非凸性にもかかわらず成功する理由が説明され、特に過パラメータ化された状況において顕著である。

ABSTRACT

Neural networks provide a rich class of high-dimensional, non-convex optimization problems. Despite their non-convexity, gradient-descent methods often successfully optimize these models. This has motivated a recent spur in research attempting to characterize properties of their loss surface that may be responsible for such success. In particular, several authors have noted that \emph{over-parametrization} appears to act as a remedy against non-convexity. In this paper, we address this phenomenon by studying key topological properties of the loss, such as the presence or absence of valleys, defined as connected components of sub-level sets that do not include a global minimum. Focusing on a class of two-layer neural networks defined by smooth (but generally non-linear) activation functions, our main contribution is to prove that as soon as the hidden layer size matches the \emph{intrinsic} dimension of the reproducing space, defined as the linear functional space generated by the activations, no spurious valleys exist, thus allowing the existence of descent directions. Our setup includes smooth activations such as polynomials, both in the empirical and population risk, and generic activations in the empirical risk case.

研究の動機と目的

  • 非凸なニューラルネットワークの最適化において勾配降下法が理論的課題にもかかわらず成功する理由を理解すること。
  • 損失関数の局所的構造、特に偽の谷の有無を、トポロジー的観点から調査すること。
  • 過パラメータ化が、活性化関数空間の内因的次元を通じて偽の谷を排除する役割を同定すること。
  • 非凸な設定下でも、パラメータ空間の任意の点から降下方向が常に存在するような条件を確立すること。

提案手法

  • 分析対象は滑らかで非線形の活性化関数を備えた2層ニューラルネットワークである。
  • 内因的次元は、活性化関数が張る線形関数空間の次元として定義される。
  • 損失関数の局所的構造は、部分集合(sub-level sets)を用いて分析され、偽の谷はグローバル最小値を含まない連結成分として定義される。
  • トポロジー的議論を用いて、隠れ層のサイズが内因的次元と一致する場合、偽の谷が存在しないことを証明する。
  • 証明は経験的リスク設定および母集団リスク設定の両方に適用可能であり、経験的設定では一般の活性化関数を想定する。
  • 再現カーネルヒルバート空間の性質および関数近似の幾何学的性質に依拠する分析である。

実験結果

リサーチクエスチョン

  • RQ12層ニューラルネットワークの損失関数の局所的構造において、どのような条件下で偽の谷が消滅するか?
  • RQ2偽の谷を排除するにあたり、隠れ層のサイズと活性化関数空間の内因的次元の関係は何か?
  • RQ3滑らかで非線形の活性化関数について、経験的リスクおよび母集団リスクの両設定で、偽の谷の不在を保証できるか?
  • RQ4損失関数表面のどのトポロジー的性質が、任意の点から降下方向が存在することを保証するか?
  • RQ5隠れ層のサイズを関数空間の内因的次元に一致させることで定義される過パラメータ化は、どのように偽の谷を排除するか?

主な発見

  • 隠れ層のサイズが再現空間の内因的次元と一致する場合、2層ニューラルネットワークの損失関数の局所的構造には偽の谷が存在しない。
  • 偽の谷が存在しないことは、パラメータ空間の任意の点から降下方向が存在することを保証する。
  • この結果は、多項式などの滑らかな活性化関数について、経験的リスクおよび母集団リスクの両設定で成り立つ。
  • ネットワークが関数空間の内因的次元に達すると、損失関数表面のトポロジー的構造が最適化に有利になる。
  • 経験的リスク設定では一般の活性化関数についても証明可能であり、特定の活性化関数に限定されない広範な適用可能性を示す。
  • これらの発見は、過パラメータ化されたニューラルネットワークにおける勾配降下法の経験的成功を理論的に説明するものである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。