Skip to main content
QUICK REVIEW

[論文レビュー] ProxSARAH: An Efficient Algorithmic Framework for Stochastic Composite Nonconvex Optimization

Nhan H. Pham, Lam M. Nguyen|arXiv (Cornell University)|Feb 15, 2019
Stochastic Gradient Optimization Techniques参考文献 40被引用数 42
ひとこと要約

ProxSARAHは、平均化ステップを伴うSARAH推定量を用いた近接的分散削減フレームワークを導入し、有限和および期待設定の双方で、定数および適応ステップサイズを用いた確率的な合成非凸問題に対して、現時点での最良の既知の複雑性を達成する。

ABSTRACT

We propose a new stochastic first-order algorithmic framework to solve stochastic composite nonconvex optimization problems that covers both finite-sum and expectation settings. Our algorithms rely on the SARAH estimator introduced in (Nguyen et al, 2017) and consist of two steps: a proximal gradient and an averaging step making them different from existing nonconvex proximal-type algorithms. The algorithms only require an average smoothness assumption of the nonconvex objective term and additional bounded variance assumption if applied to expectation problems. They work with both constant and adaptive step-sizes, while allowing single sample and mini-batches. In all these cases, we prove that our algorithms can achieve the best-known complexity bounds. One key step of our methods is new constant and adaptive step-sizes that help to achieve desired complexity bounds while improving practical performance. Our constant step-size is much larger than existing methods including proximal SVRG schemes in the single sample case. We also specify the algorithm to the non-composite case that covers existing state-of-the-arts in terms of complexity bounds. Our update also allows one to trade-off between step-sizes and mini-batch sizes to improve performance. We test the proposed algorithms on two composite nonconvex problems and neural networks using several well-known datasets.

研究の動機と目的

  • 有限和および期待設定を含む確率的な合成非凸最適化問題を動機づけて解く。
  • SARAH推定量を活用した近接的分散削減フレームワークを開発し、収束保証を改善。
  • 定数および適応ステップサイズルールを平均化近接勾配スキーム内で設計し、強い理論レートと実践的性能を達成。
  • フレームワークを合成と非合成のケースの両方に拡張し、ステップサイズとミニバッチサイズのトレードオフを分析。

提案手法

  • SARAHベースの勾配推定量を二重ループ(外部/内部)スキーム内で使用。
  • 近接勾配ステップの後に平均化ステップを取り入れ、更新G_etaを形成。
  • 平均化ステップサイズgammaと近接勾配ステップサイズetaの2つのステップサイズを導入し、全体の進捗にはhat_etaの積を用いる。
  • 単一サンプルおよびミニバッチのバリアントを許容し、有限和問題と期待問題の両方をサポート。
  • 複数の最良既知のレートに一致する複雑性界を証明する: 有限和に対してO(n + n^{1/2} epsilon^{-2})、期待に対してO(sigma^2 epsilon^{-2} + sigma epsilon^{-3})。
  • adaptiveなステップサイズルールで適応性を示し、epoch長さmとバッチサイズhat_bとのトレードオフを論じる。

実験結果

リサーチクエスチョン

  • RQ1SARAHベースの近接フレームワークは、有限和および期待設定の両方で合成非凸目的関数に対して最適またはほぼ最適な収束レートを達成できるか?
  • RQ2定数ステップサイズと適応ステップサイズ、単一サンプルとミニバッチのレジームが、理論保証と実践的性能にどのような影響を与えるか?
  • RQ3近接非凸最適化における平均化ステップが収束と複雑性に与える影響は何か?
  • RQ4計算コストと収束速度のバランスを取りつつ、保証を維持するために epoch長とバッチサイズをどのように選択すべきか?

主な発見

  • 有限和設定において、ProxSARAHはε-stationaryポイントを得るための複雑性をO(n + n^{1/2} epsilon^{-2})として達成し、適切なnに対して下限結果と定数で一致する。
  • 期待設定において、ProxSARAHは有界分散仮定の下でO(sigma^{2} epsilon^{-2} + sigma epsilon^{-3})のファーストオーダールオラルコールを必要とし、同等の方法の中で最良のレートを達成する。
  • フレームワークは2つのステップサイズと平均化ステップを使用し、ProxSVRG型メソッドと比較してより大きな定数の近接ステップサイズとミニバッチサイズの柔軟なトレードオフを可能にする。
  • 適応的なステップサイズの変種が提供され、定常的なステップサイズ方式より実践的に優れていることが多く、非合成問題にも拡張可能である。
  • 方法は合成および非合成ケースの両方をカバーし、単一サンプルおよびミニバッチレジームにも拡張され、ProxSVRG/ProxSVRG+と同じ近接演算子の使用を維持しつつ競争力のある複雑性境界を達成する。
  • ProxSVRG、SPIDER、SpiderBoostと比較して、合成設定ではより大きな有効ステップサイズを持ち、より広い範囲のミニバッチ構成をサポートするため、同等かそれ以上の複雑性を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。