Skip to main content
QUICK REVIEW

[論文レビュー] Gradient Descent Happens in a Tiny Subspace

Guy Gur-Ari, Daniel A. Roberts|arXiv (Cornell University)|Dec 12, 2018
Stochastic Gradient Optimization Techniques参考文献 14被引用数 110
ひとこと要約

訓練中の勾配はトップ Hessian サブスペースに集中し、その次元はクラス数に等しく、このサブスペースはほぼ固定されることを示唆しており、勾配降下は実質的に小さく進化するサブスペース内で動作している。

ABSTRACT

We show that in a variety of large-scale deep learning scenarios the gradient dynamically converges to a very small subspace after a short period of training. The subspace is spanned by a few top eigenvectors of the Hessian (equal to the number of classes in the dataset), and is mostly preserved over long periods of training. A simple argument then suggests that gradient descent may happen mostly in this subspace. We give an example of this effect in a solvable model of classification, and we comment on possible implications for optimization and learning.

研究の動機と目的

  • 大規模で過パラメータ化されたモデルにおけるSGD中の勾配とHessianスペクトルの振る舞いを調査する。
  • Hessian のサブスペース(トップ vs. バルク)を特徴づけ、勾配がそれらにどのように射影されるかを解析する。
  • 勾配ダイナミクスが小さく緩やかに変化するサブスペースに制約されるかと、それが最適化へ与える影響を検討する。
  • アーキテクチャとデータセット全体での実証的証拠を提供し、仕組みを説明するおもちゃモデルを提案する。

提案手法

  • Hessianを、その最大のk個の固有ベクトルが張るトップサブスペース(k=クラス数)とバルクサブスペースに分解する。
  • 勾配のトップサブスペースへの射影を測定し、訓練全体で分量f_top = ||g_top||^2 / ||g||^2を定量化する。
  • 勾配とHessian-勾配の重なりを計算して、サブスペース集中の代理指標としてgとHgの整合を評価する。
  • 訓練ステップを通じてサブスペースの重なりを評価し、トップサブスペースの保存を判断する。
  • 観測されたダイナミクスを説明するための解けるおもちゃモデル(ガウス混合分布に対するソフトマックス回帰)を提示する。
  • Lanczos法とHessian-ベクトル積を用いて、全Hessianを作成せずにトップ固有ベクトルを推定する。

実験結果

リサーチクエスチョン

  • RQ1訓練中、勾配はトップHessianサブスペースに集中するか?
  • RQ2長期間の訓練を通じて、トップHessianサブスペースはアーキテクチャやデータセットを超えて概ね保持されるか?
  • RQ3トップサブスペースへの勾配射影は最適化の進行とどう関連するか?
  • RQ4単純なおもちゃモデルは観測されたダイナミクスを再現し、解析的洞察を提供できるか?

主な発見

データセットモデルコメント平均重なり
MNISTSoftmax0.96
MNISTFCSoftplus activation0.96
MNISTFCeta=0.010.96
MNISTFCBatch size 2560.97
MNISTFCRandom labels0.86
CIFAR10ConvNetRandom labels0.86
CIFAR10ConvNetDropout, batch-norm, and extra dense layer0.93
CIFAR10ConvNetOptimized using Adam0.89
RegressionFCBatch size 1000.99
  • アーキテクチャとデータセットを超えて、勾配は速やかにトップHessianサブスペース(次元k、クラス数)に集中する。
  • トップサブスペースは長い訓練期間を通じて概ね保存される一方、バルクサブスペースはより急速に変化する。
  • 実測では、勾配とHessian投影成分との重なりは高く(ほぼ1に近い)。
  • 単純なおもちゃモデルはこの現象を再現する:勾配はトップサブスペースにあり、Hessianには二つの大きな固有値があり、他はほぼゼロに近い。
  • 小さな分散やバイアスを含めてもスペクトルは摂動を受けるが、主なトップサブスペースの集中は保たれる。
  • 観測されたダイナミクスは、勾配降下が高次元の非凸損失景観下でも、凸で低次元のサブスペース内で効果的に動作していることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。