Skip to main content
QUICK REVIEW

[論文レビュー] Spurious Local Minima are Common in Two-Layer ReLU Neural Networks

Itay Safran, Ohad Shamir|arXiv (Cornell University)|Dec 24, 2017
Neural Networks and Applications参考文献 22被引用数 77
ひとこと要約

この論文はガウス入力の下で2層 ReLU ネットワークを訓練する際に偽陽性の局所極小が存在することを示し、過パラメータ化がそれらを緩和できることを示す。

ABSTRACT

We consider the optimization problem associated with training simple ReLU neural networks of the form $\mathbf{x}\mapsto \sum_{i=1}^{k}\max\{0,\mathbf{w}_i^ op \mathbf{x}\}$ with respect to the squared loss. We provide a computer-assisted proof that even if the input distribution is standard Gaussian, even if the dimension is arbitrarily large, and even if the target values are generated by such a network, with orthonormal parameter vectors, the problem can still have spurious local minima once $6\le k\le 20$. By a concentration of measure argument, this implies that in high input dimensions, \emph{nearly all} target networks of the relevant sizes lead to spurious local minima. Moreover, we conduct experiments which show that the probability of hitting such local minima is quite high, and increasing with the network size. On the positive side, mild over-parameterization appears to drastically reduce such local minima, indicating that an over-parameterization assumption is necessary to get a positive result in this setting.

研究の動機と目的

  • 母集団損失の下で、ガウス入力を用いた2層 ReLU ネットワークの訓練における偽陽性局所極小の存在を調査する。
  • ネットワークサイズ(k)とニューロン数(n)が偽陽性局所極小の存在と発生しやすさにどのように影響するかを定量化する。
  • 偽陽性局所極小の存在を証明する厳密な戦略を提供し、これを認証する条件を探る。
  • 勾配降下法の経験的挙動と過パラメータ化の影響を調べる。

提案手法

  • 直交正規ベクトル vj を用いて、目的関数 min_w1..wn E_x~N(0,I)[1/2(sum_i [wi^T x]_+ - sum_j [vj^T x]_+)^2] を解析する。
  • 勾配、ヘシアン、テイラー余項の境界を用いた数値支援証明アプローチを用いて偽陽性局所極小の存在を証明する。
  • F、勾配、ヘシアンの閉形式表現を導出する。f(w,v)=E[[w^T x]_+[v^T x]_+] を用いる。
  • 3次微分可能性の枠組みとテイラー展開を適用して、勾配が ~0 でヘシアンが正定値のとき局所極小に近いことを示す。
  • 過パラメータ化(n>k)を用いて緩和効果を評価し、経験的証拠を提供する。
  • 保証付き精度算術(VPA)を用いて数値界を認証し、浮動小数点誤差を排除する。

実験結果

リサーチクエスチョン

  • RQ1k が 6 から 20 の範囲で orthonormal v_i を用いた場合、母集団損失の偽陽性局所極小は存在するか?
  • RQ2過パラメータ化(n>k)は偽陽性局所極小の存在・不在にどのように影響するか?
  • RQ3初期化がランダムな勾配降下法が k と n の変化とともに偽陽性局所極小へ収束する確率は実測上どの程度か?
  • RQ4勾配/Hessian および Taylor remainder bounds を用いて非グローバル最小の存在を認証する厳密な証明フレームワークは構築できるか?
  • RQ5高次元性と随机 v_i のほぼ直交性は実践でランドスケープにどのような影響を与えるか?

主な発見

kn% of runsAverage converging to local minimaAverage minimal eigenvalueAverage objective value
660.3%0.00470.0250.02508
775.5%0.0140.0230.02300
8812.6%0.0210.0210.02100
9921.8%0.0270.0200.02000
101034.6%0.0300.0220.02200
111145.5%0.0340.0220.02200
121258.5%0.0350.0210.02100
131373%0.0370.0220.02200
141473.6%0.0380.0230.02300
151580.3%0.0380.0240.02400
161685.1%0.0380.0270.02700
171789.7%0.0390.0270.02700
181890%0.0390.0290.02900
191993.4%0.0380.0310.03100
202094%0.0380.0330.03300
890.1%0.00590.0210.02100
10110.1%0.00570.0180.01800
11120.1%0.00560.0170.01700
12130.3%0.00540.0160.01600
13141.5%0.00150.0380.03800
14155.5%0.0020.0330.03300
151610.1%0.0040.0320.03200
161718%0.00550.0310.03100
171820.9%0.0070.0310.03100
181936.9%0.00640.0280.02800
192049.1%0.00770.0270.02700
  • 6 ≤ k ≤ 20 かつ n = k の場合(および n = k+1 または n = k+2 のときのある近似的な対)に、目的関数には偽陽性局所極小がある。
  • 偽陽性局所極小へ収束する確率はネットワークサイズの増加とともに上昇し、特に n ≈ k のとき顕著である。
  • 過パラメータ化(n ≥ k+2)は観測された偽陽性局所極小を大幅に減少させるか、または除去する(k,n ≤ 20 の範囲で)。
  • 著者らは勾配/Hessian 条件と Taylor 展開を結びつけて局所非グローバル最小を認証する formal proof strategy を提供する。
  • 保証付き精度算術を用いる数値証明は、これらの局所極小と正定値ヘシアンの存在を検証し、浮動小数点誤差の落とし穴を回避する。
  • 対称的で構造的な局所極小が、ターゲットニューレルンに近い重みを持つ例で観察される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。