QUICK REVIEW

[論文レビュー] Hybrid Stochastic Gradient Descent Algorithms for Stochastic Nonconvex Optimization

Quoc Tran-Dinh, Nhan H. Pham|arXiv (Cornell University)|Jan 1, 2019

Stochastic Gradient Optimization Techniques参考文献 28被引用数 22

ひとこと要約

本稿では、非凸確率最適化における分散とバイアスを低減するため、バイアスありのSARAHとバイアスなしのSGDを組み合わせたハイブリッド確率的勾配推定器を導入する。提案されたシングルループ型HybridSGD-SARAHアルゴリズムは、滑らかさと分散の有界性の仮定の下で、ε-停留点を求める際の複雑度境界としてO(σε⁻³ + σ³ε⁻¹)を達成し、σ < O(ε⁻³)のとき、標準的SGDのO(σ²ε⁻⁴)を上回る性能を示す。

ABSTRACT

We introduce a hybrid stochastic estimator to design stochastic gradient algorithms for solving stochastic optimization problems. Such a hybrid estimator is a convex combination of two existing biased and unbiased estimators and leads to some useful property on its variance. We limit our consideration to a hybrid SARAH-SGD for nonconvex expectation problems. However, our idea can be extended to handle a broader class of estimators in both convex and nonconvex settings. We propose a new single-loop stochastic gradient descent algorithm that can achieve $O(\max\{σ^3\varepsilon^{-1},σ\varepsilon^{-3}\})$-complexity bound to obtain an $\varepsilon$-stationary point under smoothness and $σ^2$-bounded variance assumptions. This complexity is better than $O(σ^2\varepsilon^{-4})$ often obtained in state-of-the-art SGDs when $σ< O(\varepsilon^{-3})$. We also consider different extensions of our method, including constant and adaptive step-size with single-loop, double-loop, and mini-batch variants. We compare our algorithms with existing methods on several datasets using two nonconvex models.

研究の動機と目的

非凸確率最適化問題において、ε-近似停留点を効率的に見つける新しいクラスの確率的勾配アルゴリズムを開発すること。
バイアスありの再帰的推定器（SARAH）とバイアスなしの推定器（SGD）を組み合わせることで、勾配推定器の分散とバイアスを低減すること。
特にノイズレベルσが所望の精度εに対して小さい場合に、最先端の手法を上回る収束複雑度を達成すること。
最適な複雑度境界を維持したまま、シングルループ、ダブルループ、適応的ステップサイズ、ミニバッチバージョンへの拡張を可能とすること。

提案手法

SARAH（バイアスあり）とSGD（バイアスなし）の推定器の凸結合として、ハイブリッド確率的勾配推定器を提案：vt = βt−1vt−1 + βt−1(∇f(xt;ξt)−∇f(xt−1;ξt)) + (1−βt−1)ut。
最近の勾配差分を活用する再帰的更新を採用し、混合パラメータβtによってバイアス低減と分散制御のバランスを保つ。
1イテレーションあたり3点の勾配評価（現在の反復点、直前の反復点、再帰的更新用）を実行するシングルループアルゴリズムを設計。
標準的SGDのO(m⁻¹ᐟ²)よりも大きなステップサイズη = O(m⁻¹ᐟ³)を採用し、収束を高速化。
ステップサイズを時間とともに増加させる適応的ステップサイズバージョンを導入し、古典的SGDの減少するステップサイズとは対照的。
ダブルループおよびミニバッチ設定への拡張を実施し、最適な複雑度境界を維持。

実験結果

リサーチクエスチョン

RQ1バイアスあり（SARAH）とバイアスなし（SGD）の勾配推定器を組み合わせたハイブリッド推定器は、非凸確率最適化において、標準的SGDよりも優れた収束複雑度を達成できるか？
RQ2提案されたハイブリッド推定器を用いたシングルループアルゴリズムは、σ < O(ε⁻³)のとき、標準的SGDのO(σ²ε⁻⁴)よりも優れたO(σε⁻³ + σ³ε⁻¹)の複雑度境界を達成できるか？
RQ3ハイブリッド推定器は、ダブルループ、適応的ステップサイズ、ミニバッチバージョンに拡張可能であり、最適な複雑度を維持できるか？
RQ4実データセット上での実験において、SVRG、SpiderBoost、SPIDERといった最先端手法と比較して、ハイブリッド手法の性能はどのように異なるか？
RQ5ハイブリッド手法におけるより大きなステップサイズ（O(m⁻¹ᐟ³)）は、1イテレーションあたりのコストが高くなるにもかかわらず、収束速度を向上させるか？

主な発見

提案されたシングルループ型HybridSGD-SARAHアルゴリズムは、ε-停留点を求める際の複雑度境界としてO(σε⁻³ + σ³ε⁻¹)を達成し、σ < O(ε⁻³)のとき、標準的SGDのO(σ²ε⁻⁴)を上回る。
1イテレーションあたり3回の勾配評価を必要とするが、低ノイズ領域ではより優れた複雑度境界を達成し、より効率的である。
ハイブリッド推定器は、SARAHの再帰的構造とSGDのバイアスなし性質を組み合わせることで、バイアスと分散の両方を低減する。
ダブルループバージョンは、非凸設定における確率的勾配型手法の文献で最も良いとされるO(max{σε⁻³, σ²ε⁻²})の複雑度を達成する。
適応的ステップサイズバージョンでは、ステップサイズが時間とともに増加するが、依然として最適な収束性能を達成する。
実データセット（w8a, rcv1, real-sim, epsilon, news20, url_combined）を用いた数値実験では、HybridSGD-SLおよびHybridSGD-ASLがSGD2やSVRGよりも低い訓練損失と勾配ノルムを達成し、同等または優れた精度を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。