Skip to main content
QUICK REVIEW

[論文レビュー] Critical Points of Neural Networks: Analytical Forms and Landscape Properties

Yi Zhou, Yingbin Liang|arXiv (Cornell University)|Oct 30, 2017
Neural dynamics and brain function参考文献 14被引用数 30
ひとこと要約

本稿は、線形およびReLU活性化を施したニューラルネットワークにおける二乗損失関数の臨界点およびグローバルミニマの完全な解析的特徴付けを提供する。臨界点の正確な形を導出することで、線形ネットワークには偽の局所的ミニマが存在せず、一方1層の隠れ層を有するReLUネットワークでは非グローバルな局所的ミニマが存在しうることを証明し、データや次元に関する制限のない一般設定下での最適化のランドスケープ特性に関する新たな知見を提供する。

ABSTRACT

Due to the success of deep learning to solving a variety of challenging machine learning tasks, there is a rising interest in understanding loss functions for training neural networks from a theoretical aspect. Particularly, the properties of critical points and the landscape around them are of importance to determine the convergence performance of optimization algorithms. In this paper, we provide full (necessary and sufficient) characterization of the analytical forms for the critical points (as well as global minimizers) of the square loss functions for various neural networks. We show that the analytical forms of the critical points characterize the values of the corresponding loss functions as well as the necessary and sufficient conditions to achieve global minimum. Furthermore, we exploit the analytical forms of the critical points to characterize the landscape properties for the loss functions of these neural networks. One particular conclusion is that: The loss function of linear networks has no spurious local minimum, while the loss function of one-hidden-layer nonlinear networks with ReLU activation function does have local minimum that is not global minimum.

研究の動機と目的

  • さまざまなニューラルネットワークアーキテクチャにおける二乗損失関数の臨界点およびグローバルミニマの解析的形の完全(必要十分)な特徴付けを提供すること。
  • 可逆性やデータ固有の制約を要しない一般仮定の下で、特に偽の局所的ミニマの有無・無しといったランドスケープ特性を確立すること。
  • データ行列やネットワーク次元に関する仮定を排除することで、先行研究の線形ネットワークに関する結果を一般化するとともに、非線形なReLUネットワークへの分析を拡張すること。
  • 臨界点の解析的形を用いて、既知のランドスケープ特性に対するより単純で直感的な証明を提供すること。

提案手法

  • 特異値分解(SVD)および正規直交ブロック行列を用いて、浅いおよび深い線形ネットワークの臨界点の解析的形を導出する。
  • 重み行列の列単位での変更に基づく摂動スキームを導入し、臨界点周辺での損失関数の変化を評価する。
  • 射影行列とトレースに基づく損失評価を用いて、摂動前の後での関数値を比較する。
  • 非グローバルミニマである臨界点からの降下方向を同定し、線形ケースにおいて局所的ミニマとグローバルミニマが等価であることを証明する。
  • 1層の隠れ層を有するReLUネットワークのパラメータ空間の特定領域における臨界点を特徴付ける。特に、1ユニットの場合の全パラメータ空間をカバーする。
  • 行列のランク条件および特異値の順序付けを用いて、グローバル最適性の必要十分条件を導出する。

実験結果

リサーチクエスチョン

  • RQ1任意のデータおよび次元を持つ浅いおよび深い線形ネットワークにおいて、臨界点およびグローバルミニマの必要十分な解析的条件は何か?
  • RQ2二乗損失関数を伴う1層の隠れ層を有するReLUネットワークの損失関数は、非グローバルな局所的ミニマを有するか?
  • RQ3特に1つの隠れユニット設定における全パラメータ空間において、非線形ReLUネットワークの臨界点の解析的形は完全に特徴付け可能か?
  • RQ4鞍点や偽の局所的ミニマの有無といったランドスケープ特性は、臨界点の解析的構造にどのように依存するか?
  • RQ5線形ネットワークにおける局所的ミニマとグローバルミニマの等価性は、解析的形を用いて制限のない仮定のもとで証明可能か?

主な発見

  • 浅い線形ネットワークでは、データ行列やネットワーク次元に関する仮定がなくても、すべての局所的ミニマがグローバルミニマであり、それ以外の臨界点はすべて鞍点である。
  • 深い線形ネットワークでは、臨界点の解析的形が非グローバルミニマである臨界点をカテゴライズし、降下方向を同定することで、局所的ミニマがグローバルに最適であることを証明する。
  • 1層の隠れ層を有するReLUネットワークでは、非グローバルな局所的ミニマおよび局所的マキマが存在し、具体的な例によってそれが示されている。これにより、損失ランドスケープが非自明であることが明らかになる。
  • 臨界点の解析的形は、損失値を完全に特徴付け、線形ネットワークおよびReLUネットワークの両方においてグローバル最適性の必要十分条件を提供する。
  • 本研究の結果は、データやネットワーク次元に関する仮定を排除することで、先行研究を一般化し、ランドスケープ特性に対するより単純な証明フレームワークを提供する。
  • 本研究は、行列因子分解(線形ネットワークの特別なケース)が、同じランドスケープ特性を継承していることを確認する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。