QUICK REVIEW

[論文レビュー] On the Benefit of Width for Neural Networks: Disappearance of Bad Basins

Dawei Li, Tian Ding|arXiv (Cornell University)|Dec 28, 2018

Stochastic Gradient Optimization Techniques参考文献 88被引用数 31

ひとこと要約

この論文は、最後の隠れ層に少なくとも N 個のニューロンを持つ広いニューラルネットワーク（N は訓練サンプル数）が、最適でない盆地（集合的厳密局所最小）を有しない損失の地形を持つことを証明している。一方、N 個未満のニューロンを持つ狭いネットワークは、このような悪質な盆地を有する可能性がある。主な貢献は、活性化関数およびデータに関する最小限の仮定の下で、幅の単一の要因による最適化に脆い狭いネットワークから最適化に頑健な広いネットワークへのフェーズ転移の同定である。

ABSTRACT

Wide networks are often believed to have a nice optimization landscape, but what rigorous results can we prove? To understand the benefit of width, it is important to identify the difference between wide and narrow networks. In this work, we prove that from narrow to wide networks, there is a phase transition from having sub-optimal basins to no sub-optimal basins. Specifically, we prove two results: on the positive side, for any continuous activation functions, the loss surface of a class of wide networks has no sub-optimal basins, where "basin" is defined as the set-wise strict local minimum; on the negative side, for a large class of networks with width below a threshold, we construct strict local minima that are not global. These two results together show the phase transition from narrow to wide networks.

研究の動機と目的

深さや表現能力を越えた、幅に特化した明確な利点を、厳密に同定すること。
幅だけが、損失の地形における最適でない局所最小（悪質な盆地）を排除することを、厳密に決定すること。
最適化の地形構造の観点から、狭いネットワークから広いネットワークへのフェーズ転移を確立すること。
任意の連続的活性化関数に対して、最後の隠れ層に N 個以上のニューロンを持つ広いネットワークが、最適でない盆地を有しないことを証明すること。
連続的活性化関数の広いクラスに対して、最適でない厳密局所最小を有する明示的な狭いネットワークの例を構築し、地形の単純化のための幅の必要性を示すこと。

提案手法

『PT性質』を導入・形式化する：任意の微小な摂動の後、グローバル最小値への厳密に減少する経路が存在すること。
PT性質が、最適でない集合的厳密局所最小（悪質な盆地）の不在を示し、弱いグローバル性を確立すること。
ユニバーサル近似および活性化関数の連続性を活用して、広いネットワークの経験的損失を、PT性質を有する関数のクラスで近似すること。
N 個未満のニューロンを持つ1層隠れ層ネットワークと解析的活性化関数を用いて、グローバルでない厳密局所最小が存在することを示す明示的反例を構築すること。
計算的手法を用いて、活性化関数の導関数を含む方程式系の妥当な解を特定し、特定のネットワーク例における悪質な盆地の存在を検証すること。
幾何学的および解析的技法を適用して、最後の隠れ層に N 個以上のニューロンを持つ広いネットワークに対して、どの活性化関数の連続性に関係なく、悪質な盆地が存在しないことを証明すること。

実験結果

リサーチクエスチョン

RQ1幅を増加させることだけが、ニューラルネットワークの損失地形における最適でない盆地を排除するのか？
RQ2最適化の地形構造の観点から、狭いネットワークから広いネットワークへのフェーズ転移を厳密に証明できるか？
RQ3どのネットワーク幅において、任意の連続的活性化関数に対して損失関数が弱いグローバル性（悪質な盆地なし）を有するのか？
RQ4広いクラスの活性化関数に対して、最適でない厳密局所最小を有する明示的な狭いネットワークを構築できるか？
RQ5広いネットワークにおける悪質な盆地の不在は、深さ、データ分布、または活性化関数の種類に依存するのか？

主な発見

任意の連続的活性化関数に対して、最後の隠れ層に少なくとも N 個のニューロンを持つ全結合フィードフォワードネットワークは、損失地形に最適でない盆地を有しない。
このような広いネットワークの損失関数は弱いグローバル性を有する。つまり、有界で偽の局所最小領域は存在せず、平坦な局所最小領域が存在しても問題ない。
狭いネットワークから広いネットワークへのフェーズ転移が発生する：最後の隠れ層に N 個未満のニューロンを持つネットワークは、グローバルでない厳密局所最小を有する可能性があるが、N 個以上を持つネットワークはそうではない。
Swish活性化関数を有する1層隠れ層ネットワークと特定のデータに対して、計算的構成により (v,w)=(1,1) に最適でない厳密局所最小が存在することを確認し、理論的悪質な盆地の存在を検証した。
結果は最小限の仮定の下で成立する：活性化関数の連続性と、最後の隠れ層に N 個以上のニューロンがあることの2つが唯一の要件である。
無限の幅や特定のデータ分布を仮定せず、幅そのものが悪質な盆地を排除できることを示しており、最適化における幅の明確な理論的利点を提供している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。