QUICK REVIEW

[論文レビュー] Spurious Local Minima are Common in Two-Layer ReLU Neural Networks

Itay Safran, Ohad Shamir|arXiv (Cornell University)|Dec 24, 2017

Neural Networks and Applications参考文献 22被引用数 77

ひとこと要約

この論文はガウス入力の下で2層 ReLU ネットワークを訓練する際に偽陽性の局所極小が存在することを示し、過パラメータ化がそれらを緩和できることを示す。

ABSTRACT

We consider the optimization problem associated with training simple ReLU neural networks of the form $\mathbf{x}\mapsto \sum_{i=1}^{k}\max\{0,\mathbf{w}_i^ op \mathbf{x}\}$ with respect to the squared loss. We provide a computer-assisted proof that even if the input distribution is standard Gaussian, even if the dimension is arbitrarily large, and even if the target values are generated by such a network, with orthonormal parameter vectors, the problem can still have spurious local minima once $6\le k\le 20$. By a concentration of measure argument, this implies that in high input dimensions, \emph{nearly all} target networks of the relevant sizes lead to spurious local minima. Moreover, we conduct experiments which show that the probability of hitting such local minima is quite high, and increasing with the network size. On the positive side, mild over-parameterization appears to drastically reduce such local minima, indicating that an over-parameterization assumption is necessary to get a positive result in this setting.

研究の動機と目的

母集団損失の下で、ガウス入力を用いた2層 ReLU ネットワークの訓練における偽陽性局所極小の存在を調査する。
ネットワークサイズ(k)とニューロン数(n)が偽陽性局所極小の存在と発生しやすさにどのように影響するかを定量化する。
偽陽性局所極小の存在を証明する厳密な戦略を提供し、これを認証する条件を探る。
勾配降下法の経験的挙動と過パラメータ化の影響を調べる。

提案手法

直交正規ベクトル vj を用いて、目的関数 min_w1..wn E_x~N(0,I)[1/2(sum_i [wi^T x]_+ - sum_j [vj^T x]_+)^2] を解析する。
勾配、ヘシアン、テイラー余項の境界を用いた数値支援証明アプローチを用いて偽陽性局所極小の存在を証明する。
F、勾配、ヘシアンの閉形式表現を導出する。f(w,v)=E[[w^T x]_+[v^T x]_+] を用いる。
3次微分可能性の枠組みとテイラー展開を適用して、勾配が ~0 でヘシアンが正定値のとき局所極小に近いことを示す。
過パラメータ化（n>k）を用いて緩和効果を評価し、経験的証拠を提供する。
保証付き精度算術（VPA）を用いて数値界を認証し、浮動小数点誤差を排除する。

実験結果

リサーチクエスチョン

RQ1k が 6 から 20 の範囲で orthonormal v_i を用いた場合、母集団損失の偽陽性局所極小は存在するか？
RQ2過パラメータ化（n>k）は偽陽性局所極小の存在・不在にどのように影響するか？
RQ3初期化がランダムな勾配降下法が k と n の変化とともに偽陽性局所極小へ収束する確率は実測上どの程度か？
RQ4勾配/Hessian および Taylor remainder bounds を用いて非グローバル最小の存在を認証する厳密な証明フレームワークは構築できるか？
RQ5高次元性と随机 v_i のほぼ直交性は実践でランドスケープにどのような影響を与えるか？

主な発見

k	n	% of runs	Average converging to local minima	Average minimal eigenvalue	Average objective value
6	6	0.3%	0.0047	0.025	0.02508
7	7	5.5%	0.014	0.023	0.02300
8	8	12.6%	0.021	0.021	0.02100
9	9	21.8%	0.027	0.020	0.02000
10	10	34.6%	0.030	0.022	0.02200
11	11	45.5%	0.034	0.022	0.02200
12	12	58.5%	0.035	0.021	0.02100
13	13	73%	0.037	0.022	0.02200
14	14	73.6%	0.038	0.023	0.02300
15	15	80.3%	0.038	0.024	0.02400
16	16	85.1%	0.038	0.027	0.02700
17	17	89.7%	0.039	0.027	0.02700
18	18	90%	0.039	0.029	0.02900
19	19	93.4%	0.038	0.031	0.03100
20	20	94%	0.038	0.033	0.03300
8	9	0.1%	0.0059	0.021	0.02100
10	11	0.1%	0.0057	0.018	0.01800
11	12	0.1%	0.0056	0.017	0.01700
12	13	0.3%	0.0054	0.016	0.01600
13	14	1.5%	0.0015	0.038	0.03800
14	15	5.5%	0.002	0.033	0.03300
15	16	10.1%	0.004	0.032	0.03200
16	17	18%	0.0055	0.031	0.03100
17	18	20.9%	0.007	0.031	0.03100
18	19	36.9%	0.0064	0.028	0.02800
19	20	49.1%	0.0077	0.027	0.02700

6 ≤ k ≤ 20 かつ n = k の場合（および n = k+1 または n = k+2 のときのある近似的な対）に、目的関数には偽陽性局所極小がある。
偽陽性局所極小へ収束する確率はネットワークサイズの増加とともに上昇し、特に n ≈ k のとき顕著である。
過パラメータ化（n ≥ k+2）は観測された偽陽性局所極小を大幅に減少させるか、または除去する（k,n ≤ 20 の範囲で）。
著者らは勾配/Hessian 条件と Taylor 展開を結びつけて局所非グローバル最小を認証する formal proof strategy を提供する。
保証付き精度算術を用いる数値証明は、これらの局所極小と正定値ヘシアンの存在を検証し、浮動小数点誤差の落とし穴を回避する。
対称的で構造的な局所極小が、ターゲットニューレルンに近い重みを持つ例で観察される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。