QUICK REVIEW

[論文レビュー] The Break-Even Point on Optimization Trajectories of Deep Neural Networks

Stanisław Jastrzȩbski, Maciej Szymczak|arXiv (Cornell University)|Feb 21, 2020

Stochastic Gradient Optimization Techniques参考文献 37被引用数 33

ひとこと要約

本論文は、初期の学習段階における SGD のハイパーパラメータが、損失表面の曲率と勾配ノイズを暗黙的に正規化するブレークイーブン点を生み出し、それが全体の最適化トラジェクトリと潜在的な一般化に影響を与える方法を調査する。

ABSTRACT

The early phase of training of deep neural networks is critical for their final performance. In this work, we study how the hyperparameters of stochastic gradient descent (SGD) used in the early phase of training affect the rest of the optimization trajectory. We argue for the existence of the "break-even" point on this trajectory, beyond which the curvature of the loss surface and noise in the gradient are implicitly regularized by SGD. In particular, we demonstrate on multiple classification tasks that using a large learning rate in the initial phase of training reduces the variance of the gradient, and improves the conditioning of the covariance of gradients. These effects are beneficial from the optimization perspective and become visible after the break-even point. Complementing prior work, we also show that using a low learning rate results in bad conditioning of the loss surface even for a neural network with batch normalization layers. In short, our work shows that key properties of the loss surface are strongly influenced by SGD in the early phase of training. We argue that studying the impact of the identified effects on generalization is a promising future direction.

研究の動機と目的

深層ネットの最終性能にとって初期の学習フェーズが重要であることを動機づける。
SGD が曲率と勾配ノイズを安定化させる最適化トラジェクトリ上のブレークイーブン点を定義し、特定する。
初期学習率とバッチサイズが、トラジェクトリ全体を通じて勾配の共分散とヘシアンの条件付けをどのように制御するかを仮説化する。
複数のアーキテクチャとデータセットにわたる分散削減とプレコンディショニング効果の実証的証拠を示す。
バッチ正規化を含むネットワークへ分析を拡張し、所見の頑健性を評価する。

提案手法

初期トレーニングの損失表面を上位ヘシアン方向が支配するものとしてモデル化し、上位ヘシアンと勾配共分散の固有ベクトルの整合を仮定する。
ブレークイーブン点を、上位ヘシアン方向に沿って安定性条件が破られる最初の SGD ステップとして定義する。
より大きな初期学習率またはより小さなバッチサイズが、トラジェクトリ全体で勾配共分散とヘシアンのスペクトルノルムの最大値を低減するとの推測。
初期トレーニング中のヘシアンのスペクトルノルムと未中心化勾配共分散のスペクトルノルムを計算・分析して仮説を検証する。
BN を含むネットワークと非 BN ネットワークを含む複数のアーキテクチャとデータセットで経験的に仮説を評価し、MNLI の BERT や ImageNet の DenseNet のような大規模タスクも対象とする。

実験結果

リサーチクエスチョン

RQ1SGD の初期フェーズは、ブレークイーブン点を介して、その後の最適化トラジェクトリを決定するのか。
RQ2初期の SGD ハイパーパラメータ（学習率、バッチサイズ）は、トラジェクトリに沿った勾配共分散とヘシアンのスペクトルノルムと条件付けにどのように影響するのか。
RQ3提案した効果は、バッチ正規化を含むネットワークや大規模モデルでも持続するのか。
RQ4より大きな初期学習率は、ブレークイーブン点後の損失表面の条件付けの良い領域につながるのか。
RQ5ブレークイーブンダイナミクスと潜在的な一般化の改善との関係は何か。

主な発見

ブレークイーブン点が存在し、最も曲率が大きい損失方向に沿った SGD ダイナミクスが不安定になると、その後のトラジェクトリは条件付けの良い領域へと整列する。
より大きな初期学習率または小さなバッチサイズは、トレーニング全体で達成される勾配共分散とヘシアンの最大スペクトルノルムを低減し、分散削減とプレコンディショニング効果を示す。
学習率が高く、バッチが小さい場合、K および H の最小の非零固有値と最大固有値の比が大きくなり、条件付けの改善を示唆する。
バッチ正規化を持つネットワークでもブレークイーブン動作は見られ、改善された条件付けを達成するには非 BN ネットより高い学習率が必要である。
分散削減とプレコンディショニング効果は SimpleCNN、ResNet-32、LSTM、BERT、DenseNet、および MNLI や ImageNet のような大規模スケールの実験でも観察される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。