Skip to main content
QUICK REVIEW

[論文レビュー] Local minima in training of neural networks

Grzegorz Świrszcz, Wojciech Marian Czarnecki|arXiv (Cornell University)|Nov 19, 2016
Stochastic Gradient Optimization Techniques参考文献 25被引用数 39
ひとこと要約

この論文は、小さなデータセットと浅いアーキテクチャを用いた簡単な設定においても、完全結合ReLUネットワークの損失関数の局所的最小値に最適でないものが存在しうることを示している。勾配降下法が劣悪な解に収束するような明示的な例を構築することで、データおよびアーキテクチャに関する強い仮定がなければ、悪い局所的最小値が存在しないとは限らないことを示している。

ABSTRACT

There has been a lot of recent interest in trying to characterize the error surface of deep models. This stems from a long standing question. Given that deep networks are highly nonlinear systems optimized by local gradient methods, why do they not seem to be affected by bad local minima? It is widely believed that training of deep models using gradient methods works so well because the error surface either has no local minima, or if they exist they need to be close in value to the global minimum. It is known that such results hold under very strong assumptions which are not satisfied by real models. In this paper we present examples showing that for such theorem to be true additional assumptions on the data, initialization schemes and/or the model classes have to be made. We look at the particular case of finite size datasets. We demonstrate that in this scenario one can construct counter-examples (datasets or initialization schemes) when the network does become susceptible to bad local minima over the weight space.

研究の動機と目的

  • 完全結合ReLUネットワークの学習損失関数の局所的最小値に最適でないものが存在しうるかどうかを調査すること、特に小さな完全結合ReLUネットワークにおけるものについて。
  • グローバル最小値ではなく、悪い局所的最小値に収束するような、明示的で最小限のデータセットおよびネットワーク構成を構築すること。
  • 高次元幾何学の性質のおかげで、悪い局所的最小値が深層学習においてまれまたは存在しないという一般的な仮説に疑問を呈すること。
  • ニューラルネットワークの損失関数の滑らかさに関する理論的主張の限界を露呈する、具体的な反例を提供すること。
  • 標準的な学習手順の失敗事例を特定することで、より良い最適化アルゴリズムの設計に情報を提供すること。

提案手法

  • 著者らは、1つのReLU隠れ層と最終的な線形出力層を備えた特定のネットワークアーキテクチャを定義し、平均二乗誤差損失を用いる。
  • 全体の平均とは異なるラベル分布を持つ少なくとも1つの入力点を含むデータセットを構築し、自明に分離不能ではない「まともな」データセットを保証する。
  • 一意の点を他のすべての点から分離するための超平面を定義し、隠れ層の最初の3つのニューロンがこの点でのみ活性化するように重み行列を設計する。
  • ネットワークは、隠れ層の出力がすべての入力点に対して0となるように構成され、一意の点では線形結合によって正しいラベルが出力されるようにする。
  • 構築された点における損失が、すべての入力に対してグローバル平均を予測する代替構成よりも厳密に高いことが示される。
  • 証明は、平均回りの二乗誤差損失の厳密な凸性に依存しており、ラベルの平均が局所平均と異なる限り、構築された点がグローバル最小値にはなり得ないことを示している。

実験結果

リサーチクエスチョン

  • RQ1完全結合ReLUネットワークが、小さな現実的なデータセットで勾配降下法によって学習される場合、最適でない局所的最小値が存在しうるか?
  • RQ2どのようなデータおよびアーキテクチャ的条件下で、学習プロセスがグローバル最小値に到達しなくなるか?
  • RQ3深層学習における悪い局所的最小値の不在は普遍的性質であるのか、それともデータおよびモデル構造に関する特定の仮定に依存するのか?
  • RQ4高次元最適化における滑らかな損失関数表面に関する理論的主張に反する、明示的な反例を構築できるか?
  • RQ5データおよびネットワークアーキテクチャのどのような構造的特徴が、学習中に悪い局所的最小値の出現を引き起こすか?

主な発見

  • この論文は、1つの隠れ層を持つ完全結合ReLUネットワークの明示的例を構築し、グローバル最小値よりも高い損失を持つ局所的最小値に収束することを示している。
  • 構築された局所的最小値は、ネットワークが一意の入力点のラベル平均を予測するように学習する場合に生じるが、グローバル最小値はすべての入力に対して全体のラベル平均を予測する場合に対応する。
  • 一意の点のラベル平均が全体のラベル平均と異なる場合に、そのような局所的最小値が存在することは、条件のもとで証明されている。これは「まともな」データセットでは保証される。
  • 二乗誤差損失の平均回りにおける厳密な凸性のおかげで、局所的最小値における損失はグローバル最小値よりも厳密に高くなる。
  • 3つのニューロンしか持たない非常に小さなネットワークに対してもこの結果が成り立つため、悪い局所的最小値が複雑なアーキテクチャに限定されるわけではないことが示された。
  • この論文は、データ分布およびネットワーク構造に関する強い仮定がなければ、悪い局所的最小値の不在は保証されないことを示し、『悪い局所的最小値なし』の仮説に疑問を呈している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。