Skip to main content
QUICK REVIEW

[論文レビュー] Learning One-hidden-layer Neural Networks with Landscape Design

Rong Ge, Jason D. Lee|arXiv (Cornell University)|Nov 1, 2017
Stochastic Gradient Optimization Techniques参考文献 26被引用数 113
ひとこと要約

本論文は、ガウス入力から1隠れ層ネットワークを学習する際に有利な景観を持つ非凸目的関数を設計し、過パラメータ化なしでSGDが真のパラメータへ収束することを可能にする。

ABSTRACT

We consider the problem of learning a one-hidden-layer neural network: we assume the input $x\in \mathbb{R}^d$ is from Gaussian distribution and the label $y = a^ op σ(Bx) + ξ$, where $a$ is a nonnegative vector in $\mathbb{R}^m$ with $m\le d$, $B\in \mathbb{R}^{m imes d}$ is a full-rank weight matrix, and $ξ$ is a noise vector. We first give an analytic formula for the population risk of the standard squared loss and demonstrate that it implicitly attempts to decompose a sequence of low-rank tensors simultaneously. Inspired by the formula, we design a non-convex objective function $G(\cdot)$ whose landscape is guaranteed to have the following properties: 1. All local minima of $G$ are also global minima. 2. All global minima of $G$ correspond to the ground truth parameters. 3. The value and gradient of $G$ can be estimated using samples. With these properties, stochastic gradient descent on $G$ provably converges to the global minimum and learn the ground-truth parameters. We also prove finite sample complexity result and validate the results by simulations.

研究の動機と目的

  • ガウス入力とReLU様の活性化関数を持つ1隠れ層ネットワークの集団リスクを理解する。
  • すべての局所最小値がグローバルで、かつ真のパラメータと対応する、良好な最適化景観を持つ目的関数を設計する。
  • 設計した目的関数上のSGDが有限データで真のパラメータへ収束することを示す。

提案手法

  • 標準の二乗損失の集団リスクの解析的公式を導出し、それと同時低秩テンソル分解(Hermite係数を介して)との関係を示す。
  • 一定の条件の下で真の解を保持し、偽の局所 minima を持たない新しい非凸目的関数 G(B) を提案する。
  • 正交な B* 設定において、単位ノルムの行を強制し、真の成分との整列を促進する正規化項を備えた G(B) を定義する。
  • G の景観性質を証明する:任意の局所最小値は真の B* の順列/符号反転に対応し、すべての鞍点は負の曲率を持つ。
  • G 上の SGD が概略的なグローバル最小値へ収束することを示し、有限データ設定(経験的 G)への系を補足として示す。
  • 後続の手順が B* を回復した後に a* を推定し、そこから全パラメータを回復する方法の概略を述べる。

実験結果

リサーチクエスチョン

  • RQ1ガウス入力下の1隠れ層ネットワークについて、すべての局所 minima がグローバルで、かつ真のパラメータに対応するような非凸目的関数を設計できるか?
  • RQ2集団リスクとテンソル分解の関係は何であり、これが景観設計をどう導くか?
  • RQ3どのような条件(例:正交な B*、正の a*、正則化の強さ)で SGD が有限サンプルの保証とともに真のパラメータへ収束するか?
  • RQ4過パラメータ化せずに、設計された目的関数から真のパラメータを推定するにはどうすれば良いか?
  • RQ5設計された目的関数の経験的版は、多項式個のサンプル数で景観保証を保持するか?

主な発見

  • 閉形式の表現は、集団リスクを Hermite係数の和とテンソル分解の Frobenius ノルム差の積に関連づけ、学習を低ランクテンソル分解につなぐ。
  • 新しい目的関数 G(B) が構築され、局所 minima は真の B* の順列/符号反転と正確に一致し、適切なパラメータ選択の下で鞍点は負の曲率を持つ。
  • G(B) 上の SGD は、次元と精度の多項式時間保証のもと、(順列/符号まで)グローバル最小値へ収束する。
  • B* が正交で適切な正規化が用いられると、B* を順列/符号まで回収し、その後線形回帰で a* を回復し、標準的なパラメータ回復手順を進められる。
  • 有限サンプルの結果は、経験的版の G が景観特性を多項式個数のサンプルで保持することを示し、実用的な学習を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。