Skip to main content
QUICK REVIEW

[論文レビュー] Towards Gradient Free and Projection Free Stochastic Optimization

Anit Kumar Sahu, Manzil Zaheer|arXiv (Cornell University)|Oct 8, 2018
Stochastic Gradient Optimization Techniques被引用数 18
ひとこと要約

本稿は、勾配情報ではなく方向微分のクエリを用いる勾配フリーかつ射影フリーな確率的制約付き最適化のためのゼロ次フランク=ウォルフ法を提案する。凸設定では $O(d^{1/3}/T^{1/3})$ のプライマル劣離差を達成し、非凸設定では $O(d^{1/3}T^{-1/4})$ のフランク=ウォルフギャップを達成する。これは、1イテレーションあたり1つの方向微分を用いるゼロ次法の中で、最高の次元依存性を有する。

ABSTRACT

This paper focuses on the problem of \emph{constrained} \emph{stochastic} optimization. A zeroth order Frank-Wolfe algorithm is proposed, which in addition to the projection-free nature of the vanilla Frank-Wolfe algorithm makes it gradient free. Under convexity and smoothness assumption, we show that the proposed algorithm converges to the optimal objective function at a rate $O\left(1/T^{1/3} ight)$, where $T$ denotes the iteration count. In particular, the primal sub-optimality gap is shown to have a dimension dependence of $O\left(d^{1/3} ight)$, which is the best known dimension dependence among all zeroth order optimization algorithms with one directional derivative per iteration. For non-convex functions, we obtain the \emph{Frank-Wolfe} gap to be $O\left(d^{1/3}T^{-1/4} ight)$. Experiments on black-box optimization setups demonstrate the efficacy of the proposed algorithm.

研究の動機と目的

  • 勾配ではなく関数評価(ゼロ次オラクル)のみが利用可能な制約付き確率的最適化問題に対処すること。
  • 射影勾配法で一般的に発生する高コストな射影ステップを回避する射影フリーな手法の開発。
  • ゼロ次確率的最適化における収束レートの次元依存性を最適化すること。
  • ゼロ次確率的フランク=ウォルフ法におけるバイアス付き勾配推定と非減衰性ノイズの課題を、勾配平均化の導入によって安定化すること。
  • ゼロ次アクセスの下で、凸および非凸設定の両方における理論的収束レートの確立。

提案手法

  • ゼロ次オラクルを用いた確率的フランク=ウォルフ法を提案し、勾配クエリの代わりに方向微分推定を用いる。
  • 3つのゼロ次勾配近似スキームを採用:キーファー=ウォルフ(KWSA)、ランダムディレクション(RDSA)、および $m < d$ 方向を用いる改良型RDSA(I-RDSA)。
  • 勾配平均化技術を導入し、補助勾配推定のバイアスとノイズを低減することで、収束の安定化を実現。
  • 減少するステップサイズ $\gamma = T^{-3/4}$ と、適応的ステップサイズ $\rho_t$ および $c_t$ を用い、収束と誤差低減のバランスを取る。
  • 勾配近似誤差の分析とフランク=ウォルフギャップおよびプライマル劣離差との関係を用いて収束バウンドを導出。
  • 再帰的誤差バウンドを用いた理論的収束の確立と、Lemma B.1 を適用して $\mathbb{E}[\|\nabla f(\mathbf{x}_t) - \mathbf{d}_t\|^2] = O((d/m)^{2/3}/(t+9)^{1/2})$ を示す。

実験結果

リサーチクエスチョン

  • RQ1ゼロ次オラクルアクセスのもとで、勾配フリーな確率的フランク=ウォルフ法を構築し、収束性を維持できるか?
  • RQ21イテレーションあたり1つの方向微分を用いるゼロ次確率的フランク=ウォルフ法において、収束レートの最適な次元依存性は何か?
  • RQ3ゼロ次オラクルからのバイアス付きでノイズの高い勾配推定を、確率的フランク=ウォルフ法の収束を保証するためにどのように安定化できるか?
  • RQ4提案手法は、既存のゼロ次確率的最適化アルゴリズムよりも優れた次元依存性を達成できるか?
  • RQ5ゼロ次アクセスの下で、凸および非凸設定における理論的収束レートは何か?

主な発見

  • 提案手法は、凸設定において $O(d^{1/3}/T^{1/3})$ のプライマル劣離差を達成し、1イテレーションあたり1つの方向微分を用いるゼロ次法の中で、最高の次元依存性を有する。
  • 非凸関数に対しては、フランク=ウォルフ双対ギャップが $O(d^{1/3}T^{-1/4})$ のレートで収束し、先行する確率的ゼロ次法を上回る。
  • 勾配平均化によりバイアスとノイズが低減され、非減衰性の勾配推定にもかかわらず安定した収束が可能になる。
  • 次元に依存する収束レートは、与えられたオラクルモデルにおいて最適であり、$d^{1/3}$ の依存性が最適である。
  • 理論的分析により、弱い仮定のもとで収束が保証され、勾配近似誤差および劣離差の明示的バウンドが得られる。
  • ブラックボックス最適化の設定における実験により、提案手法の実用的有効性が検証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。