QUICK REVIEW

[論文レビュー] Learning One-hidden-layer Neural Networks with Landscape Design

Rong Ge, Jason D. Lee|arXiv (Cornell University)|Nov 1, 2017

Stochastic Gradient Optimization Techniques参考文献 26被引用数 113

ひとこと要約

本論文は、ガウス入力から1隠れ層ネットワークを学習する際に有利な景観を持つ非凸目的関数を設計し、過パラメータ化なしでSGDが真のパラメータへ収束することを可能にする。

ABSTRACT

We consider the problem of learning a one-hidden-layer neural network: we assume the input $x\in \mathbb{R}^d$ is from Gaussian distribution and the label $y = a^ op σ(Bx) + ξ$, where $a$ is a nonnegative vector in $\mathbb{R}^m$ with $m\le d$, $B\in \mathbb{R}^{m imes d}$ is a full-rank weight matrix, and $ξ$ is a noise vector. We first give an analytic formula for the population risk of the standard squared loss and demonstrate that it implicitly attempts to decompose a sequence of low-rank tensors simultaneously. Inspired by the formula, we design a non-convex objective function $G(\cdot)$ whose landscape is guaranteed to have the following properties: 1. All local minima of $G$ are also global minima. 2. All global minima of $G$ correspond to the ground truth parameters. 3. The value and gradient of $G$ can be estimated using samples. With these properties, stochastic gradient descent on $G$ provably converges to the global minimum and learn the ground-truth parameters. We also prove finite sample complexity result and validate the results by simulations.

研究の動機と目的

ガウス入力とReLU様の活性化関数を持つ1隠れ層ネットワークの集団リスクを理解する。
すべての局所最小値がグローバルで、かつ真のパラメータと対応する、良好な最適化景観を持つ目的関数を設計する。
設計した目的関数上のSGDが有限データで真のパラメータへ収束することを示す。

提案手法

標準の二乗損失の集団リスクの解析的公式を導出し、それと同時低秩テンソル分解（Hermite係数を介して）との関係を示す。
一定の条件の下で真の解を保持し、偽の局所 minima を持たない新しい非凸目的関数 G(B) を提案する。
正交な B* 設定において、単位ノルムの行を強制し、真の成分との整列を促進する正規化項を備えた G(B) を定義する。
G の景観性質を証明する：任意の局所最小値は真の B* の順列/符号反転に対応し、すべての鞍点は負の曲率を持つ。
G 上の SGD が概略的なグローバル最小値へ収束することを示し、有限データ設定（経験的 G）への系を補足として示す。
後続の手順が B* を回復した後に a* を推定し、そこから全パラメータを回復する方法の概略を述べる。

実験結果

リサーチクエスチョン

RQ1ガウス入力下の1隠れ層ネットワークについて、すべての局所 minima がグローバルで、かつ真のパラメータに対応するような非凸目的関数を設計できるか？
RQ2集団リスクとテンソル分解の関係は何であり、これが景観設計をどう導くか？
RQ3どのような条件（例：正交な B*、正の a*、正則化の強さ）で SGD が有限サンプルの保証とともに真のパラメータへ収束するか？
RQ4過パラメータ化せずに、設計された目的関数から真のパラメータを推定するにはどうすれば良いか？
RQ5設計された目的関数の経験的版は、多項式個のサンプル数で景観保証を保持するか？

主な発見

閉形式の表現は、集団リスクを Hermite係数の和とテンソル分解の Frobenius ノルム差の積に関連づけ、学習を低ランクテンソル分解につなぐ。
新しい目的関数 G(B) が構築され、局所 minima は真の B* の順列/符号反転と正確に一致し、適切なパラメータ選択の下で鞍点は負の曲率を持つ。
G(B) 上の SGD は、次元と精度の多項式時間保証のもと、（順列/符号まで）グローバル最小値へ収束する。
B* が正交で適切な正規化が用いられると、B* を順列/符号まで回収し、その後線形回帰で a* を回復し、標準的なパラメータ回復手順を進められる。
有限サンプルの結果は、経験的版の G が景観特性を多項式個数のサンプルで保持することを示し、実用的な学習を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。