QUICK REVIEW

[論文レビュー] Exponentially vanishing sub-optimal local minima in multilayer neural networks

Daniel Soudry, Elad Hoffer|arXiv (Cornell University)|Feb 19, 2017

Neural Networks and Applications参考文献 33被引用数 54

ひとこと要約

本論文は、1つの隠れ層を持つPiecewise linear ユニットを用い、MSEで学習する1層のMNNにおいて、局所最適でないサブ最適解を含む差分可能領域の体積が、穏やかな過パラメータ化とガウス入力の仮定の下でグローバル最小値に対して指数的に消失することを示す。

ABSTRACT

Background: Statistical mechanics results (Dauphin et al. (2014); Choromanska et al. (2015)) suggest that local minima with high error are exponentially rare in high dimensions. However, to prove low error guarantees for Multilayer Neural Networks (MNNs), previous works so far required either a heavily modified MNN model or training method, strong assumptions on the labels (e.g., "near" linear separability), or an unrealistic hidden layer with $Ω\left(N ight)$ units. Results: We examine a MNN with one hidden layer of piecewise linear units, a single output, and a quadratic loss. We prove that, with high probability in the limit of $N ightarrow\infty$ datapoints, the volume of differentiable regions of the empiric loss containing sub-optimal differentiable local minima is exponentially vanishing in comparison with the same volume of global minima, given standard normal input of dimension $d_{0}= ildeΩ\left(\sqrt{N} ight)$, and a more realistic number of $d_{1}= ildeΩ\left(N/d_{0} ight)$ hidden units. We demonstrate our results numerically: for example, $0\%$ binary classification training error on CIFAR with only $N/d_{0}\approx 16$ hidden neurons.

研究の動機と目的

過剰パラメータ化された MNN において SGD が訓練誤差の小さい解を見つける理由を理解する動機づけ。
サブ最適な局所 minima の出現率を分析するための現実的な MNN 設定を提案。
サブ最適領域がグローバル minima より指数関数的に希少であることを示す確率的境界を導出。
現実的なネットワークサイズにおける過パラメータ化がサブ最適 minima の低減に果たす役割を定量化することを目指す。

提案手法

片位相的に線形なユニットを1つの隠れ層に持つ2層 MNN を、スカラー出力を前提として分析する。
平均二乗誤差損失と微分可能な局所最小値（DLM）を分析の焦点とする。
活性化パターンが固定される微分可能領域を定義し、残差誤差を階数条件 (A ∘ X) e = 0 に関連づける。
ランダムなガウス初期化の下でのパラメータ領域の確率測度として角度体積を導入する。
サブ最適 DLM の角度体積の上界とグローバル minima の角度体積の下界を証明する。
体積比を境界づける主定理を確立し、サブ最適領域がグローバル minima に比べて指数関数的に消えることを示す。

実験結果

リサーチクエスチョン

RQ1高次元において、どの条件下でサブ最適な微分可能局所最小値が指数関数的に希少になるのか？
RQ2隠れ層の幅と入力次元の観点で過 parameterization は、サブ最適 minima を含む領域の体積とグローバル minima の領域の体積にどう影響するのか？
RQ3現実的な仮定（ガウス入力、穏やかな過パラメータ化）で、MNNや学習方法を変更せずに低い訓練誤差を保証する証明を得られるか？

主な発見

与えられた仮定の下で、MCE > ε を持つサブ最適 DLM の期待角度体積は N に対して指数関数的に小さい。
グローバル minima は高い確率で存在し、非 Negligible な角度体積を持つため、サブ最適領域との意味のある比較を保証する。
体積比 V(Lε) / V(G) は exp(-γε N^{3/4} (d1 d0)^{1/4}) により上限付けられ、同時に ≤ exp(-γε N log N) でもある。サブ最適領域の指数的希少性を示す。
ガウスデータおよび実データセット（MNIST, CIFAR, ImageNet）に関する数値実験は、パラメータ数が比較的控えめ（約 N パラメータ）で訓練誤差がほぼゼロに近いことを示し、理論と一致している。
非微分可能な臨界点は数値的には稀で現れ、主要な結果は微分可能な局所 minima に焦点を当てている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。