Skip to main content
QUICK REVIEW

[論文レビュー] Towards Theoretically Understanding Why SGD Generalizes Better Than ADAM in Deep Learning

Pan Zhou, Jiashi Feng|arXiv (Cornell University)|Oct 12, 2020
Stochastic Gradient Optimization Techniques被引用数 99
ひとこと要約

本論文は、Lévy駆動SDEで勾配ノイズをモデル化し、局所基底からの離脱時間を分析することで、SGDがAdamより一般化性能が高いことを説明し、Radon測度と基底の安定性を結びつける。

ABSTRACT

It is not clear yet why ADAM-alike adaptive gradient algorithms suffer from worse generalization performance than SGD despite their faster training speed. This work aims to provide understandings on this generalization gap by analyzing their local convergence behaviors. Specifically, we observe the heavy tails of gradient noise in these algorithms. This motivates us to analyze these algorithms through their Levy-driven stochastic differential equations (SDEs) because of the similar convergence behaviors of an algorithm and its SDE. Then we establish the escaping time of these SDEs from a local basin. The result shows that (1) the escaping time of both SGD and ADAM~depends on the Radon measure of the basin positively and the heaviness of gradient noise negatively; (2) for the same basin, SGD enjoys smaller escaping time than ADAM, mainly because (a) the geometry adaptation in ADAM~via adaptively scaling each gradient coordinate well diminishes the anisotropic structure in gradient noise and results in larger Radon measure of a basin; (b) the exponential gradient average in ADAM~smooths its gradient and leads to lighter gradient noise tails than SGD. So SGD is more locally unstable than ADAM~at sharp minima defined as the minima whose local basins have small Radon measure, and can better escape from them to flatter ones with larger Radon measure. As flat minima here which often refer to the minima at flat or asymmetric basins/valleys often generalize better than sharp ones , our result explains the better generalization performance of SGD over ADAM. Finally, experimental results confirm our heavy-tailed gradient noise assumption and theoretical affirmation.

研究の動機と目的

  • 深層学習における SGD と Adam の generalization ギャップを動機づける。
  • SGD と Adam の勾配ノイズをモデル化する Lévy駆動 SDE フレームワークを導入する。
  • より平坦な極小値への収束を説明するために局所基底からの離脱時間を分析する。
  • 勾配ノイズの尾部の重さと幾何学的適応が一般化性能に結びつく。

提案手法

  • SGDとAdamをLévy駆動確率微分方程式(SDE)の離散化として定式化する。
  • 勾配ノイズは時間依存共分散を持つSαS(尾が重い)分布に従うと仮定する。
  • 局所基底Ωからの離脱時間Γを導出し、それをRadon測度m(W)で特徴づける。
  • Γ が O(ε^{-1}/m(W)) のオーダーを持つことを証明し、幾何適応(Adam)とノイズ尾部が離脱へ与える影響を分析する。
  • Lévy過程をジャンプ成分と小動作成分に分解して離脱ダイナミクスを研究する(定理2)。
  • 尾が重い勾配ノイズと理論的枠組みの実証的検証を提供する。

実験結果

リサーチクエスチョン

  • RQ1深層学習設定でなぜ SGD が Adam より一般化性能が良いのか。
  • RQ2尾が重い勾配ノイズと座標ごとの学習率適応が最適化ダイナミクスにどう影響するか。
  • RQ3Radon測度を介した基底の幾何が SGD と Adam の離脱挙動に果たす役割。
  • RQ4離脱時間がより平坦で非対称な基底への収束と一般化性能にどう関連するか。

主な発見

  • 勾配ノイズは尾が重くSαS分布でモデル化でき、尾部の性質が最適化ダイナミクスに影響する。
  • 両方が鋭い極小値から離脱するが、SGDは通常Radon測度が大きい基底へより速く離脱し、一般化を説明する。
  • Adam の座標ごとのスケーリングは離脱集合の実効Radon測度を低下させ、より平坦な基底への離脱を妨げる。
  • Γ は O(1 / (m(W) Θ(ε^{-1}))) のオーダーにスケールし、より大きい基底(Radon測度)が離脱に抵抗し、より平坦な極小値を favor。
  • SGD は時に尾部指数 α がより大きくなることがあり、より大きなジャンプと基底遷移を可能にし、平坦な極小値に寄与する。
  • 実験は尾が重い勾配ノイズを裏付け、理論的主張を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。