QUICK REVIEW

[論文レビュー] SGD and Hogwild! Convergence Without the Bounded Gradients Assumption

Lam M. Nguyen, Phuong Ha Nguyen|arXiv (Cornell University)|Feb 11, 2018

Stochastic processes and financial applications被引用数 39

ひとこと要約

本論文は、勾配が一様に有界であるという仮定を必要としない強凸性のもとで、SGDおよびHogwild!の収束を確立している。これは、強凸性の設定では成立しない標準的な仮定である。機械学習問題の構造—個々の確率的勾配がリプシッツ連続であり、全体の目的関数が強凸である—を活用することで、段階的減少するステップサイズにおける新しい収束レートを導出。$\mathbb{E}[\|\hat{w}_{t+1}-w_{*}\|^{2}] \leq \frac{4\alpha^{2}DN}{\mu^{2}}\frac{1}{t} + O(\frac{1}{t\ln t})$ が得られ、これはHogwild!に対して段階的減少ステップサイズを用いた初の結果である。

ABSTRACT

Stochastic gradient descent (SGD) is the optimization algorithm of choice in many machine learning applications such as regularized empirical risk minimization and training deep neural networks. The classical convergence analysis of SGD is carried out under the assumption that the norm of the stochastic gradient is uniformly bounded. While this might hold for some loss functions, it is always violated for cases where the objective function is strongly convex. In (Bottou et al.,2016), a new analysis of convergence of SGD is performed under the assumption that stochastic gradients are bounded with respect to the true gradient norm. Here we show that for stochastic problems arising in machine learning such bound always holds; and we also propose an alternative convergence analysis of SGD with diminishing learning rate regime, which results in more relaxed conditions than those in (Bottou et al.,2016). We then move on the asynchronous parallel setting, and prove convergence of Hogwild! algorithm in the same regime, obtaining the first convergence results for this method in the case of diminished learning rate.

研究の動機と目的

古典的なSGD収束解析が一様に有界な確率的勾配を仮定しているという制限を解決すること。
この有界勾配仮定が、正則化最小二乗やロジスティック回帰といった強凸問題では本質的に破綻することを示すこと。
個々の確率的関数が凸で勾配がリプシッツ連続であり、全体の目的関数が強凸であるというより現実的な仮定のもとで、SGDおよびHogwild!の収束を確立すること。
有界勾配を仮定しない段階的減少ステップサイズの下での両手法の収束レートを導出すること。
段階的減少学習率を用いたHogwild!の最初の収束解析を提供し、実用的設定への理論的基盤を拡張すること。

提案手法

著者らは、各$f(w;\xi)$が凸で勾配がリプシッツ連続であり、期待される目的関数$F(w)$が$\mu$-強凸であるという仮定の下でSGDおよびHogwild!を分析している。
機械学習問題の構造を活用することで、一様有界勾配仮定を回避する新しい分析フレームワークを導入。ここでは、確率的勾配が真の勾配ノルムに対して自然に有界である。
Hogwild!に対しては、有界遅延$\tau(t)$を用いた非同期更新をモデル化し、最適解$w_*$への期待二乗距離の境界を導出。
期待値の再帰的境界$\mathbb{E}[\|\hat{w}_t - w_*\|^2]$を用い、勾配ノイズ、遅延、ステップサイズの減衰を組み込む。
誤差蓄積の増大を制御するため、時間に依存する遅延$\tau(t) \leq \sqrt{t \cdot L(t)}$（$L(t) = \frac{1}{\ln t} - \frac{1}{(\ln t)^2}$）を導入。
期待誤差が$O(1/t)$で減少することを示す重要な補題を導出。これは、段階的減少ステップサイズ$\eta_t = \frac{\alpha_t}{\mu(t + 2\tau(t))}$（$\alpha_t \in [12, \alpha]$）の下で成立。

実験結果

リサーチクエスチョン

RQ1強凸問題において、古典的な一様有界確率的勾配仮定を満たさないSGDは収束可能か？
RQ2従来の解析が定数または多対数的ステップサイズを必要としていたことを踏まえ、Hogwild!は段階的減少学習率スケジュールのもとで収束するか？
RQ3確率的勾配が一様に有界ではないが、全体の目的関数が強凸である場合、SGDおよびHogwild!の収束レートは？
RQ4非同期設定における有界な更新遅延の存在が収束に与える影響は何か？期待値として定量的に評価可能か？
RQ5個々の関数$f(w;\xi)$が凸でない場合でも、$F(w)$が強凸である限り、解析を拡張可能か？

主な発見

本論文は、一様有界確率的勾配仮定が強凸性と矛盾することを証明。これは目的関数の成長と整合しない。
SGDに対して、期待二乗誤差$\mathbb{E}[\|\hat{w}_{t+1} - w_*\|^2]$は$\frac{4\alpha^2DN}{\mu^2} \cdot \frac{1}{t} + O\left(\frac{1}{t\ln t}\right)$ のレートで減少。これは有界勾配仮定なしで得られる初の結果である。
ステップサイズ$\eta_t = \frac{\alpha_t}{\mu(t + 2\tau(t))}$（$\alpha_t \in [12, \alpha]$）のもとで、誤差境界が成立。最適解付近での勾配の増大に対しても収束を保証。
Hogwild!に対しては、同じ仮定のもとで段階的減少学習率を用いた初の収束結果を確立。時間に依存する遅延$\tau(t) \leq \sqrt{t \cdot L(t)}$を用いた非同期更新モデルを導入。
導出された収束レートは遅延およびノイズに強く、主な誤差項が$O(1/t)$で減少。二次的な項$O(1/(t\ln t))$は$t$が大きくなると無視可能になる。
解析により、$t \geq \exp\left[2\sqrt{\Delta}\left(1 + \frac{(L+\mu)\alpha}{\mu}\right)\right]$ で$O(1/t)$項が支配的になることが示され、漸近的レートが妥当であることが裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。