Skip to main content
QUICK REVIEW

[論文レビュー] Multiplicative noise and heavy tails in stochastic optimization

Liam Hodgkinson, Michael W. Mahoney|arXiv (Cornell University)|Jun 11, 2020
Stochastic Gradient Optimization Techniques参考文献 65被引用数 32
ひとこと要約

本論文は確率的最適化アルゴリズムを乗法ノイズを伴うマルコフ乱再帰としてモデル化し、重尾の定常分布が生じることを示し、それがSGD、モーメント、Adam、確率的ニュートンなどのさまざまな最適化手法において、ベース間の跳ね出し(basin hopping)と探索を強化することを示している。

ABSTRACT

Although stochastic optimization is central to modern machine learning, the precise mechanisms underlying its success, and in particular, the precise role of the stochasticity, still remain unclear. Modelling stochastic optimization algorithms as discrete random recurrence relations, we show that multiplicative noise, as it commonly arises due to variance in local rates of convergence, results in heavy-tailed stationary behaviour in the parameters. A detailed analysis is conducted for SGD applied to a simple linear regression problem, followed by theoretical results for a much larger class of models (including non-linear and non-convex) and optimizers (including momentum, Adam, and stochastic Newton), demonstrating that our qualitative results hold much more generally. In each case, we describe dependence on key factors, including step size, batch size, and data variability, all of which exhibit similar qualitative behavior to recent empirical results on state-of-the-art neural network models from computer vision and natural language processing. Furthermore, we empirically demonstrate how multiplicative noise and heavy-tailed structure improve capacity for basin hopping and exploration of non-convex loss surfaces, over commonly-considered stochastic dynamics with only additive noise and light-tailed structure.

研究の動機と目的

  • 確率的最適化を、定常挙動を研究するためのマルコフ乱再帰関係として動機づけ、形式化する。
  • 乗法ノイズがパラメータの重尾(べき法則)の定常分布を生み出すことを示す。
  • ステップサイズ、バッチサイズ、データ分散が尾部挙動と汎化への影響をどのように及ぼすかを分析する。
  • 線形回帰設定から得られた結果を、より広い凸・非凸目的関数、およびモーメント、Adam、 stochastic Newton を含む最適化アルゴリズムへ拡張する。
  • 非凸な風景において、重尾の揺らぎが basin hopping と探索を改善するという実証的証拠を提供する。

提案手法

  • 確率的最適化の更新を、線形ケースではW_{k+1}=A_k W_k + B_kというランダム再帰関係としてモデル化し、一般 Ψ に拡張してW_{k+1}=Ψ_k(W_k)とする。
  • 定常分布が重尾(べき法則)になる条件を特徴づけ、乗法ノイズの下で尾べき指数を導出する。
  • 一般のリプシッツ性を持つ確率的最適化アルゴリズムに対するべき条件(定理1)を導出する。
  • 尾部挙動を、バッチサイズ、ステップサイズ、データ分散といったアルゴリズム的要因と関連づける。
  • リプシッツ条件を超えるエルゴード的マルコフ連鎖における重尾の抽象的基準(補足 Lemma 3)を提供する。
  • 連続時間アナログと結びつけ、 SG-MCMC と Langevin 型モデルへの含意を論じる。

実験結果

リサーチクエスチョン

  • RQ1乗法ノイズによって確率的最適化アルゴリズムが重尾の定常分布を示す条件は何か?
  • RQ2ステップサイズ、バッチサイズ、データ分散が尾部指数と探索ダイナミクスにどう影響するか?
  • RQ3SGD、Adam、確率的ニュートンなどの最適化手法において、非凸損失の領域で重尾の揺らぎは basin hopping と探索を強化するか?
  • RQ4線形GDの特例と一般のリプシッツモデルを、尾部挙動を予測するマルコフ連鎖の枠組みで統一できるか?
  • RQ5深層学習における一般化と最適化ダイナミクスに対する、乗法ノイズ駆動の重尾の意味は何か?

主な発見

  • 乗法ノイズは、データが軽尾であっても、確率的最適化の定常分布に重尾を生み出すことができる。
  • 線形 SGD 最小二乗のケースには三つの尾部レジームが同定され、重尾の乗法ノイズは定常状態にべき法則の尾を生み出す。
  • 尾の重さはバッチサイズ、ステップサイズ、データ分散、正則化、ヘッセ行列の条件数に依存し、探索と汎化に影響を与える。
  • モーメントや Adam のような適応的最適化法は、幾何減衰を介して重尾を抑制し、探索と利用のバランスに影響を与える。
  • 実証的証拠は、乗法ノイズが純粋な加法ノイズと比較して非凸ランドスケープにおける basin hopping と探索を促進することを示す。
  • 結果は離散時間のマルコフ解析と連続時間の Langevin 型近似を橋渡しし、確率的最適化における乗法ノイズの役割を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。