Skip to main content
QUICK REVIEW

[論文レビュー] Improved Zeroth-Order Variance Reduced Algorithms and Analysis for Nonconvex Optimization

Kaiyi Ji, Zhe Wang|arXiv (Cornell University)|Oct 26, 2019
Stochastic Gradient Optimization Techniques参考文献 38被引用数 24
ひとこと要約

本稿では、より優れた関数クエリ複雑度と収束速度を達成する2つの改良型ゼロ次元のバナンス削減アルゴリズム—ZO-SVRG-Coord-Rand および ZO-SPIDER-Coord—を提案する。座標ごとの勾配推定とガウス確率変数の回避により、ZO-GD や ZO-SGD よりも高速な収束を実現し、リセットなしに局所的な PL 界域で線形収束を達成する定数ステップサイズを可能にする。

ABSTRACT

Two types of zeroth-order stochastic algorithms have recently been designed for nonconvex optimization respectively based on the first-order techniques SVRG and SARAH/SPIDER. This paper addresses several important issues that are still open in these methods. First, all existing SVRG-type zeroth-order algorithms suffer from worse function query complexities than either zeroth-order gradient descent (ZO-GD) or stochastic gradient descent (ZO-SGD). In this paper, we propose a new algorithm ZO-SVRG-Coord-Rand and develop a new analysis for an existing ZO-SVRG-Coord algorithm proposed in Liu et al. 2018b, and show that both ZO-SVRG-Coord-Rand and ZO-SVRG-Coord (under our new analysis) outperform other exiting SVRG-type zeroth-order methods as well as ZO-GD and ZO-SGD. Second, the existing SPIDER-type algorithm SPIDER-SZO (Fang et al. 2018) has superior theoretical performance, but suffers from the generation of a large number of Gaussian random variables as well as a $\\sqrt{\\epsilon}$-level stepsize in practice. In this paper, we develop a new algorithm ZO-SPIDER-Coord, which is free from Gaussian variable generation and allows a large constant stepsize while maintaining the same convergence rate and query complexity, and we further show that ZO-SPIDER-Coord automatically achieves a linear convergence rate as the iterate enters into a local PL region without restart and algorithmic modification.

研究の動機と目的

  • 既存の SVRG 型ゼロ次元アルゴリズムの関数クエリ複雑度が ZO-GD や ZO-SGD よりも劣っている問題に対処すること。
  • SPIDER 型手法におけるガウス確率変数の生成を排除しつつ、最適な収束速度を維持すること。
  • SPIDER 型アルゴリズムで定数ステップサイズを可能にすること。
  • アルゴリズムのリセットや修正なしに、局所的なポリャク=ロジャチェフスキー(PL)領域で線形収束を達成すること。
  • 既存の ZO-SVRG-Coord の理論的分析をより厳密にすることで、関数クエリ複雑度と収束速度を改善すること。

提案手法

  • 座標ごとの勾配推定を用いた ZO-SVRG-Coord の確率的変種である ZO-SVRG-Coord-Rand を導入。収束性の向上を図る。
  • ZO-SVRG-Coord に対して新たな理論的分析を構築。定数ステップサイズと O(1/K) の収束速度を達成し、先行研究を改善する。
  • ガウス確率変数の生成を回避し、定数ステップサイズをサポートする新しい SPIDER 型アルゴリズム ZO-SPIDER-Coord を提案。
  • 非凸設定におけるバナンス削減とクエリ効率の向上のため、座標ごとの勾配推定器を採用。
  • 収束の解析において、テレスコピック(望遠)の議論を用いて勾配の期待ノルムをバインド。これにより、定常点への収束を保証する。
  • クエリ複雑度と収束速度のバランスを取るために、適応的バッチサイズおよびエポック長の選択を導入。

実験結果

リサーチクエスチョン

  • RQ1ZO-SVRG 型アルゴリズムは、ZO-GD や ZO-SGD よりも優れた関数クエリ複雑度を達成できるか?
  • RQ2SPIDER 型ゼロ次元手法は、ガウス確率変数の生成を回避しつつも、最適な収束速度を維持できるか?
  • RQ3SPIDER 型アルゴリズムで定数ステップサイズを使用しても性能が劣化しないか?
  • RQ4ZO-SPIDER-Coord はリセットなしに局所的な PL 界域で線形収束を達成できるか?
  • RQ5新たな理論的分析により、既存の ZO-SVRG-Coord の収束速度とクエリ複雑度を改善できるか?

主な発見

  • ZO-SVRG-Coord-Rand および ZO-SVRG-Coord の新しい解析により、関数クエリ複雑度が O(min{dn²/³/ε, d/ε⁵/³}) に達し、ZO-GD や ZO-SGD を上回る。
  • ZO-SPIDER-Coord は、SPIDER-SZO と同等の収束速度とクエリ複雑度を達成するが、ガウス確率変数の生成を一切行わない。
  • ZO-SPIDER-Coord は、SPIDER-SZO が実際には √ε 水準のステップサイズを使用するのに対し、定数ステップサイズをサポートする。
  • ZO-SPIDER-Coord は、リセットやアルゴリズムの変更なしに、自動的に局所的な PL 界域で線形収束を達成する。
  • ZO-SVRG-Coord の新しい解析により、定数ステップサイズで O(1/K) の収束速度が達成され、先行の SVRG 型手法よりもクエリ複雑度が低減される。
  • 提案されたアルゴリズムは、O(d min{n, 1/ε} log(1/ε)) の関数クエリ複雑度を達成し、既存の最先端手法と同等またはそれを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。