Skip to main content
QUICK REVIEW

[論文レビュー] Eigenvalues of the Hessian in Deep Learning: Singularity and Beyond

Levent Sagun, Léon Bottou|arXiv (Cornell University)|Nov 22, 2016
Stochastic Gradient Optimization Techniques参考文献 9被引用数 120
ひとこと要約

本論文は訓練前後の深層ネットワークのヘッセ行列スペクトルを分析し、ほぼゼロ付近で非常に縮退した(特異な)体幹と、大規模で離散的な固有値のデータ依存セットを明らかにし、最適化とランドスケープの位相に影響を及ぼす。

ABSTRACT

We look at the eigenvalues of the Hessian of a loss function before and after training. The eigenvalue distribution is seen to be composed of two parts, the bulk which is concentrated around zero, and the edges which are scattered away from zero. We present empirical evidence for the bulk indicating how over-parametrized the system is, and for the edges that depend on the input data.

研究の動機と目的

  • 訓練前後の深層ニューラルネットワークにおける損失ヘッセ行列の固有値分布を調査する。
  • スペクトルがゼロ付近の体幹とデータ依存のエッジにどのように分かれるかを特徴づける。
  • ネットワークサイズとデータの複雑さがヘッセ行列スペクトルと訓練ダイナミクスにどう影響するかを理解する。
  • 深層学習における最適化理論とアルゴリズム設計への実践的含意を論じる。

提案手法

  • MNISTと単純な2Dデータで訓練された全結合ネットワークに対して、正確なヘッセ行列(ヘッセ行列ベクトル積を介して)を計算する。
  • さまざまなネットワークサイズとデータ構成に跨るヘッセ行列固有値のヒストグラムをプロットする。
  • データとアーキテクチャの効果を分離するために、ランダムデータ、MNISTデータ、単純なガウスブロブのヘッセ行列スペクトルを比較する。
  • 訓練中の固有値スペクトルの進化を追跡し、訓練が固有値をゼロへと集中させる様子を観察する。
  • 異なる損失関数(例:クロスエントロピー対平均二乗誤差)のスペクトルへの影響を調べる。

実験結果

リサーチクエスチョン

  • RQ1深層ネットワークにおける収束時のヘッセ行列固有値分布の構造は何か?
  • RQ2スペクトルの体幹と端部はアーキテクチャとデータのどちらに依存するか?
  • RQ3訓練はゼロ付近の固有値の集中にどう影響するか?
  • RQ4異なるデータの複雑さや損失関数は離散的なデータ依存固有値を変えるか?

主な発見

  • ヘッセ行列スペクトルはゼロを中心とした体幹と、別個の大きな離散固有値の集合からなる。
  • 離散的でデータ依存の固有値は入力データに依存し、体幹はアーキテクチャに依存する。
  • ネットワークサイズを大きくするとゼロ付近の固有値の集中が鋭くなる一方で、データ依存のエッジはある程度保存される。
  • 訓練ダイナミクスは多くの固有値をゼロへと押し出すが、負の固有値は存続し、非凸・非縮退のランドスケープを示している。
  • 二相の非縮退性(データ駆動のエッジとモデル駆動の体幹)は平坦な領域を生み出し、新しい最適化の観点を導く可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。