Skip to main content
QUICK REVIEW

[論文レビュー] SGD: General Analysis and Improved Rates

Robert M. Gower, Nicolas Loizou|arXiv (Cornell University)|Jan 27, 2019
Stochastic Gradient Optimization Techniques参考文献 41被引用数 41
ひとこと要約

本論文は、任意のサンプリングに対する SGD の一般定理を期待平滑性フレームワークで導出し、厳密なステップサイズ公式と最適ミニバッチサイズを導出し、全ての成分の凸性を仮定しなくても線形収束を証明する。

ABSTRACT

We propose a general yet simple theorem describing the convergence of SGD under the arbitrary sampling paradigm. Our theorem describes the convergence of an infinite array of variants of SGD, each of which is associated with a specific probability law governing the data selection rule used to form mini-batches. This is the first time such an analysis is performed, and most of our variants of SGD were never explicitly considered in the literature before. Our analysis relies on the recently introduced notion of expected smoothness and does not rely on a uniform bound on the variance of the stochastic gradients. By specializing our theorem to different mini-batching strategies, such as sampling with replacement and independent sampling, we derive exact expressions for the stepsize as a function of the mini-batch size. With this we can also determine the mini-batch size that optimizes the total complexity, and show explicitly that as the variance of the stochastic gradient evaluated at the minimum grows, so does the optimal mini-batch size. For zero variance, the optimal mini-batch size is one. Moreover, we prove insightful stepsize-switching rules which describe when one should switch from a constant to a decreasing stepsize regime.

研究の動機と目的

  • SGD を一様分散仮定を超えて普遍的な収束フレームワークへ動機付ける。
  • サンプリング方式と関数の滑らかさを関連付ける期待平滑性の概念を導入する。
  • 任意のサンプリング分布に対して有効な一般的収束定理を提供する。
  • 厳密なステップサイズ式と最適なミニバッチサイズを導出する。
  • バッチサイズが大きくなると SGD が勾配法と一致する条件を示す。

提案手法

  • D SGD を D から引いた分布 D に従って v のサンプリングベクトルを用いて再表現し、f_v(x) を f(x) の無偏推定量とする。
  • 期待平滑性仮定の ES(L) を採用し、E[||∇f_v(x)−∇f_v(x*)||^2] を定数 L を介して f(x)−f(x*) に結びつける。
  • 有限の σ^2 = E[||∇f_v(x*)||^2] によって勾配ノイズを下界し、均一な勾配分散境界を仮定せずに収束分析を可能にする。
  • 定理 3.1 を証明する:定数ステップ γ ∈ (0, 1/(2L)] では、SGD は加法的ノイズ項を除けば線形収束し、E||x^k−x*||^2 ≤ (1−γμ)^k||x^0−x*||^2 + 2γσ^2/μ。
  • より改善されたレートを達成する減少するステップサイズスケジュール(定理 3.2)、γ^k の明示的公式を提供する。
  • 共通のサンプリングについて L と σ^2 を上界(定理 3.6、定理 3.9)、独立、τ-ナイス、分割サンプリングを議論する。
  • 反復複雑性に L と σ を代入して最適ミニバッチサイズを導出し、閉形式の基準を提供する(セクション 4)。
  • 勾配が 0 のノイズが発生しない過参数設定で分析を結びつけ、バッチサイズが n のとき GD レートを回収する。
  • 単一要素・ミニバッチ設定の実用的な重要サンプリングスキームを概説する(セクション 5)。

実験結果

リサーチクエスチョン

  • RQ1任意のデータサンプリング分布の下で SGD を単一の汎用フレームワークでどのように解析できるか。
  • RQ2期待平滑性定数 L と勾配ノイズ σ^2 がサンプリング方式にどのように依存し、一般的なサンプリングに対してそれらをどのように計算・上界できるか。
  • RQ3異なるサンプリング方式に対して全体の複雑さを最小化する最適なミニバッチサイズと学習率スケジュールは何か。
  • RQ4バッチサイズが n のとき SGD が勾配降下率に達する条件は何か、分散は収束にどう影響するか。

主な発見

  • μ-準強凸性の下でノイズフロアを γσ^2/μ に比例させて線形収束するES(L) フレームワーク。
  • ミニバッチサイズとサンプリング手法に依存する明示的なステップサイズの選択肢を提供し、減衰するステップサイズのレジームと証明可能なレートを含む。
  • 独立サンプリング、τ-ナイスサンプリング、単一要素サンプリング、分割サンプリングに対する期待平滑性 L と勾配ノイズ σ^2 の閉形式境界を導出し、実践的なパラメータ調整を可能にする。
  • 勾配ノイズ σ^2 = 0 の場合、フレームワークは勾配降下率 L/μ を定数とともに回収し、ミニバッチサイズが n に向かって大きくなると GD レートに近づく。
  • 最適なミニバッチサイズとステップサイズはノイズと滑らかさのバランスを取り、より大きなミニバッチがある程度まで有利で、その後は利点が飽和することを説明する。
  • Ridge 回帰、ロジスティック回帰、PCA 設定を横断する実験で理論的主張を裏付け、ES フレームワークの実用性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。