QUICK REVIEW
[論文レビュー] Gradient Descent Happens in a Tiny Subspace
Guy Gur-Ari, Daniel A. Roberts|arXiv (Cornell University)|Dec 12, 2018
Stochastic Gradient Optimization Techniques参考文献 14被引用数 110
ひとこと要約
訓練中の勾配はトップ Hessian サブスペースに集中し、その次元はクラス数に等しく、このサブスペースはほぼ固定されることを示唆しており、勾配降下は実質的に小さく進化するサブスペース内で動作している。
ABSTRACT
We show that in a variety of large-scale deep learning scenarios the gradient dynamically converges to a very small subspace after a short period of training. The subspace is spanned by a few top eigenvectors of the Hessian (equal to the number of classes in the dataset), and is mostly preserved over long periods of training. A simple argument then suggests that gradient descent may happen mostly in this subspace. We give an example of this effect in a solvable model of classification, and we comment on possible implications for optimization and learning.
研究の動機と目的
- 大規模で過パラメータ化されたモデルにおけるSGD中の勾配とHessianスペクトルの振る舞いを調査する。
- Hessian のサブスペース(トップ vs. バルク)を特徴づけ、勾配がそれらにどのように射影されるかを解析する。
- 勾配ダイナミクスが小さく緩やかに変化するサブスペースに制約されるかと、それが最適化へ与える影響を検討する。
- アーキテクチャとデータセット全体での実証的証拠を提供し、仕組みを説明するおもちゃモデルを提案する。
提案手法
- Hessianを、その最大のk個の固有ベクトルが張るトップサブスペース(k=クラス数)とバルクサブスペースに分解する。
- 勾配のトップサブスペースへの射影を測定し、訓練全体で分量f_top = ||g_top||^2 / ||g||^2を定量化する。
- 勾配とHessian-勾配の重なりを計算して、サブスペース集中の代理指標としてgとHgの整合を評価する。
- 訓練ステップを通じてサブスペースの重なりを評価し、トップサブスペースの保存を判断する。
- 観測されたダイナミクスを説明するための解けるおもちゃモデル(ガウス混合分布に対するソフトマックス回帰)を提示する。
- Lanczos法とHessian-ベクトル積を用いて、全Hessianを作成せずにトップ固有ベクトルを推定する。
実験結果
リサーチクエスチョン
- RQ1訓練中、勾配はトップHessianサブスペースに集中するか?
- RQ2長期間の訓練を通じて、トップHessianサブスペースはアーキテクチャやデータセットを超えて概ね保持されるか?
- RQ3トップサブスペースへの勾配射影は最適化の進行とどう関連するか?
- RQ4単純なおもちゃモデルは観測されたダイナミクスを再現し、解析的洞察を提供できるか?
主な発見
| データセット | モデル | コメント | 平均重なり |
|---|---|---|---|
| MNIST | Softmax | 0.96 | |
| MNIST | FC | Softplus activation | 0.96 |
| MNIST | FC | eta=0.01 | 0.96 |
| MNIST | FC | Batch size 256 | 0.97 |
| MNIST | FC | Random labels | 0.86 |
| CIFAR10 | ConvNet | Random labels | 0.86 |
| CIFAR10 | ConvNet | Dropout, batch-norm, and extra dense layer | 0.93 |
| CIFAR10 | ConvNet | Optimized using Adam | 0.89 |
| Regression | FC | Batch size 100 | 0.99 |
- アーキテクチャとデータセットを超えて、勾配は速やかにトップHessianサブスペース(次元k、クラス数)に集中する。
- トップサブスペースは長い訓練期間を通じて概ね保存される一方、バルクサブスペースはより急速に変化する。
- 実測では、勾配とHessian投影成分との重なりは高く(ほぼ1に近い)。
- 単純なおもちゃモデルはこの現象を再現する:勾配はトップサブスペースにあり、Hessianには二つの大きな固有値があり、他はほぼゼロに近い。
- 小さな分散やバイアスを含めてもスペクトルは摂動を受けるが、主なトップサブスペースの集中は保たれる。
- 観測されたダイナミクスは、勾配降下が高次元の非凸損失景観下でも、凸で低次元のサブスペース内で効果的に動作していることを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。