QUICK REVIEW

[論文レビュー] SpiderBoost and Momentum: Faster Stochastic Variance Reduction Algorithms

Zhe Wang, Kaiyi Ji|arXiv (Cornell University)|Oct 25, 2018

Stochastic Gradient Optimization Techniques参考文献 38被引用数 30

ひとこと要約

本稿では、より大きな定数ステップサイズを用い、非凸最適化における近似的に最適なオракル複雑度を達成する、新しい確率的バリアンス低減アルゴリズムであるSpiderBoostを提案する。さらに、モーメンタムを組み込んだProx-SpiderBoost-Mを導入し、非滑らか正則化子を伴う複合非凸問題に対して、最適な$\mathcal{O}(n + \sqrt{n}\epsilon^{-2})$の複雑度を達成する。これはSPIDERや先行手法と比較して、実用的性能が顕著に向上している。

ABSTRACT

SARAH and SPIDER are two recently developed stochastic variance-reduced algorithms, and SPIDER has been shown to achieve a near-optimal first-order oracle complexity in smooth nonconvex optimization. However, SPIDER uses an accuracy-dependent stepsize that slows down the convergence in practice, and cannot handle objective functions that involve nonsmooth regularizers. In this paper, we propose SpiderBoost as an improved scheme, which allows to use a much larger constant-level stepsize while maintaining the same near-optimal oracle complexity, and can be extended with proximal mapping to handle composite optimization (which is nonsmooth and nonconvex) with provable convergence guarantee. In particular, we show that proximal SpiderBoost achieves an oracle complexity of $\mathcal{O}(\min\{n^{1/2}ε^{-2},ε^{-3}\})$ in composite nonconvex optimization, improving the state-of-the-art result by a factor of $\mathcal{O}(\min\{n^{1/6},ε^{-1/3}\})$. We further develop a novel momentum scheme to accelerate SpiderBoost for composite optimization, which achieves the near-optimal oracle complexity in theory and substantial improvement in experiments.

研究の動機と目的

SPIDERの精度依存的ステップサイズの制限を解消し、実用的収束速度を向上させること。
非滑らか正則化子を扱えるSPIDERのプロキシマル拡張を、証明可能な収束保証とともに開発すること。
新たなモーメンタムスキームを用いてSPIDERベースの手法を加速し、最適なオラクル複雑度を維持すること。
バリアンス低減確率的最適化における理論的複雑度と実効的性能のギャップを埋めること。

提案手法

SpiderBoostは、内部ループ全体における変動の増分を制限する、新たな収束解析フレームワークを用いる。これにより、$\eta = \mathcal{O}(1/L)$の定数ステップサイズを可能にし、SPIDERの$\mathcal{O}(\epsilon/L)$とは異なり、より大きなステップサイズが可能になる。
アルゴリズムはSPIDERに類似した正規化勾配推定器を採用するが、よりタイトな解析によりステップサイズ制約を緩和する。
Prox-SpiderBoostは、非滑らか正則化子を伴う複合非凸問題を解くために、プロキシマルマッピングを用いてSpiderBoostを拡張する。
勾配推定器のマルティンググール構造を活用し、収束を加速する新たなモーメンタムスキーム、Prox-SpiderBoost-Mを設計する。
モーメンタムと分散を制御するため、適応的重み$\alpha_k$、$\beta_k$、$\lambda_k$を用いた再帰的更新ルールを採用する。
理論的解析により、最適化経路に沿ったテレスコピング和と分散分解を用いて、勾配推定器の期待ノルムを上限付ける。

実験結果

リサーチクエスチョン

RQ1バリアンス低減アルゴリズムは、より大きな定数ステップサイズを用いながら、近似的に最適なオラクル複雑度を維持できるか？
RQ2SPIDERは非滑らか正則化子を伴う複合最適化に一般化可能であり、収束保証を維持できるか？
RQ3モーメンタムはSPIDER型アルゴリズムに効果的に統合可能であり、理論的最適性を損なわず実用的性能を向上できるか？
RQ4与えられた仮定の下で、複合非凸最適化の最適オラクル複雑度は何か？

主な発見

Prox-SpiderBoostは、オラクル複雑度$\mathcal{O}(\min\{n^{1/2}\epsilon^{-2}, \epsilon^{-3}\})$を達成し、最新の最良手法を$\mathcal{O}(\min\{n^{1/6}, \epsilon^{-1/3}\})$の要因で改善した。
SpiderBoostにおける定数ステップサイズ$\eta = \mathcal{O}(1/L)$は、SPIDERの$\mathcal{O}(\epsilon/L)$ステップサイズと比較して、実用的収束が著しく速い。
Prox-SpiderBoost-Mは、最適な$\mathcal{O}(n + \sqrt{n}\epsilon^{-2})$のオラクル複雑度を達成し、非凸最適化における既知の下界と一致する。
理論的解析により、$\mathbb{E}\|G_{\lambda_\zeta}(z_\zeta, \nabla f(z_\zeta))\| \leq \mathcal{O}(\sqrt{L(\Psi(x_0) - \Psi^*)/K})$が示され、$K = \mathcal{O}(L(\Psi(x_0) - \Psi^*)/\epsilon^2)$回の反復が必要であると示唆される。
本手法は、$\mathcal{O}(\epsilon^{-2})$のプロキシマルオラクル複雑度を達成し、与えられた問題クラスにおいて最適である。
実験結果は、特に初期学習段階において、SPIDERや他のベースライン手法と比較して顕著な性能向上を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。