QUICK REVIEW

[論文レビュー] DNN's Sharpest Directions Along the SGD Trajectory.

Stanisław Jastrzȩbski, Zachary Kenton|arXiv (Cornell University)|Jul 13, 2018

Stochastic Gradient Optimization Techniques被引用数 6

ひとこと要約

本稿は、DNN学習中の確率的勾配降下法（SGD）の軌道における、最も鋭い曲率方向の役割を調査する。SGDは、曲率に対して大きなステップをとるため、初期段階で次第に鋭い領域へ移動することが明らかになった。また、これらの方向に学習率を低減することで、標準的なSGDよりも訓練が高速化され、より鋭く、一般化性能の優れたモデルが得られることを示した。

ABSTRACT

Stochastic Gradient Descent (SGD) based training of neural networks with a large learning rate or a small batch-size typically ends in well-generalizing, flat regions of the weight space, as indicated by small eigenvalues of the Hessian of the training loss. However, the curvature along the SGD trajectory is poorly understood. An empirical investigation shows that initially SGD visits increasingly sharp regions, reaching a maximum sharpness determined by both the learning rate and the batch-size of SGD. When studying the SGD dynamics in relation to the sharpest directions in this initial phase, we find that the SGD step is large compared to the curvature and commonly fails to minimize the loss along the sharpest directions. Furthermore, using a reduced learning rate along these directions can improve training speed while leading to both sharper and better generalizing solutions compared to vanilla SGD. In summary, our analysis of the dynamics of SGD in the subspace of the sharpest directions shows that they influence the regions that SGD steers to (where larger learning rate or smaller batch size result in wider regions visited), the overall training speed, and the generalization ability of the final model.

研究の動機と目的

重み空間における最も鋭い方向の曲率がSGDの軌道およびモデルの一般化性能に与える影響を理解すること。
大規模な学習率や小規模なバッチサイズが、初期段階で鋭い領域へ移動するにもかかわらず、平坦で一般化性能の優れた解に至る理由を解明すること。
最も鋭い方向に沿って学習率を適応的に調整することで、訓練効率およびモデル性能が向上するかを調査すること。
SGDステップサイズ、バッチサイズ、学習率、および重み空間における訪問された領域の鋭さとの関係を同定すること。

提案手法

訓練中にSGDの軌道に沿ってヘッセ行列の最大固有値（鋭さ）の変化を経験的に追跡する。
ヘッセ行列の最大固有値に対応する固有ベクトルを用いて、重み空間における最も鋭い方向を同定する。
最も鋭い方向におけるSGD更新量と曲率の大きさを分析し、ステップサイズと局所的幾何構造との不一致を明らかにする。
最も鋭い方向に特化して学習率を低減するように変更した訓練戦略を実装する。
標準的なSGDと比較して、訓練速度、最終損失、鋭さ、一般化性能の観点から両者を比較する。

実験結果

リサーチクエスチョン

RQ1訓練中にSGDの軌道に沿って損失関数の鋭さはどのように変化するか？
RQ2大規模な学習率や小規模なバッチサイズが、初期段階で鋭い領域へ移動するにもかかわらず、なぜ一般化性能が向上するのか？
RQ3SGDの更新サイズは、最も鋭い方向において、どの程度曲率を上回っているのか？その結果の影響は何か？
RQ4最も鋭い方向に沿って学習率を低減することで、訓練速度および一般化性能が向上するか？
RQ5最も鋭い方向は、SGDが収束する最終的な重み空間の領域にどのように影響を与えるか？

主な発見

SGDは初期段階で、学習率とバッチサイズに依存する最大鋭さに達するまで、次第に鋭い領域へ移動する。
最も鋭い方向におけるSGDの更新ステップは、しばしばその局所的曲率よりも著しく大きいことがあり、その結果、これらの方向における最小化が非効率的になる。
最も鋭い方向に特化して学習率を低減することで、標準的なSGDよりも高速に訓練収束する。
変更された訓練戦略により、より鋭いだけでなく、通常のSGDで学習させたモデルよりも一般化性能が優れたモデルが得られる。
大きな学習率や小さなバッチサイズは、SGDがより広範で平坦な損失関数の領域を訪問するが、初期の軌道は鋭さの増加が支配的である。
最も鋭い方向は、最終的なモデルの一般化能力および軌道のダイナミクスに顕著な影響を与えるが、標準的なSGDではうまく最小化されない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。