QUICK REVIEW

[論文レビュー] Gradient Descent Happens in a Tiny Subspace

Guy Gur-Ari, Daniel A. Roberts|arXiv (Cornell University)|Dec 12, 2018

Stochastic Gradient Optimization Techniques参考文献 14被引用数 110

ひとこと要約

訓練中の勾配はトップ Hessian サブスペースに集中し、その次元はクラス数に等しく、このサブスペースはほぼ固定されることを示唆しており、勾配降下は実質的に小さく進化するサブスペース内で動作している。

ABSTRACT

We show that in a variety of large-scale deep learning scenarios the gradient dynamically converges to a very small subspace after a short period of training. The subspace is spanned by a few top eigenvectors of the Hessian (equal to the number of classes in the dataset), and is mostly preserved over long periods of training. A simple argument then suggests that gradient descent may happen mostly in this subspace. We give an example of this effect in a solvable model of classification, and we comment on possible implications for optimization and learning.

研究の動機と目的

大規模で過パラメータ化されたモデルにおけるSGD中の勾配とHessianスペクトルの振る舞いを調査する。
Hessian のサブスペース（トップ vs. バルク）を特徴づけ、勾配がそれらにどのように射影されるかを解析する。
勾配ダイナミクスが小さく緩やかに変化するサブスペースに制約されるかと、それが最適化へ与える影響を検討する。
アーキテクチャとデータセット全体での実証的証拠を提供し、仕組みを説明するおもちゃモデルを提案する。

提案手法

Hessianを、その最大のk個の固有ベクトルが張るトップサブスペース（k＝クラス数）とバルクサブスペースに分解する。
勾配のトップサブスペースへの射影を測定し、訓練全体で分量f_top = ||g_top||^2 / ||g||^2を定量化する。
勾配とHessian-勾配の重なりを計算して、サブスペース集中の代理指標としてgとHgの整合を評価する。
訓練ステップを通じてサブスペースの重なりを評価し、トップサブスペースの保存を判断する。
観測されたダイナミクスを説明するための解けるおもちゃモデル（ガウス混合分布に対するソフトマックス回帰）を提示する。
Lanczos法とHessian-ベクトル積を用いて、全Hessianを作成せずにトップ固有ベクトルを推定する。

実験結果

リサーチクエスチョン

RQ1訓練中、勾配はトップHessianサブスペースに集中するか？
RQ2長期間の訓練を通じて、トップHessianサブスペースはアーキテクチャやデータセットを超えて概ね保持されるか？
RQ3トップサブスペースへの勾配射影は最適化の進行とどう関連するか？
RQ4単純なおもちゃモデルは観測されたダイナミクスを再現し、解析的洞察を提供できるか？

主な発見

データセット	モデル	コメント	平均重なり
MNIST	Softmax		0.96
MNIST	FC	Softplus activation	0.96
MNIST	FC	eta=0.01	0.96
MNIST	FC	Batch size 256	0.97
MNIST	FC	Random labels	0.86
CIFAR10	ConvNet	Random labels	0.86
CIFAR10	ConvNet	Dropout, batch-norm, and extra dense layer	0.93
CIFAR10	ConvNet	Optimized using Adam	0.89
Regression	FC	Batch size 100	0.99

アーキテクチャとデータセットを超えて、勾配は速やかにトップHessianサブスペース（次元k、クラス数）に集中する。
トップサブスペースは長い訓練期間を通じて概ね保存される一方、バルクサブスペースはより急速に変化する。
実測では、勾配とHessian投影成分との重なりは高く（ほぼ1に近い）。
単純なおもちゃモデルはこの現象を再現する：勾配はトップサブスペースにあり、Hessianには二つの大きな固有値があり、他はほぼゼロに近い。
小さな分散やバイアスを含めてもスペクトルは摂動を受けるが、主なトップサブスペースの集中は保たれる。
観測されたダイナミクスは、勾配降下が高次元の非凸損失景観下でも、凸で低次元のサブスペース内で効果的に動作していることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。