QUICK REVIEW

[論文レビュー] A stochastic subspace approach to gradient-free optimization in high dimensions

David Kozak, Stephen Becker|arXiv (Cornell University)|Mar 4, 2020

Stochastic Gradient Optimization Techniques参考文献 75被引用数 23

ひとこと要約

本稿では、関数評価が高価な状況において、ランダムな低次元部分空間を用いて勾配を近似することで、高次元で勾配フリーな最適化を効率的に行う確率的部分空間勾配降下法を提案する。凸性のもとで期待値の収束が達成され、強い凸性のもとで確率的収束が達成され、1次元を超える部分空間へのガウススムージングの拡張と、新しい有限次元のジョンソン＝リンデンストラウスの変種が理論的保証とともに与えられる。

ABSTRACT

We present a stochastic descent algorithm for unconstrained optimization that is particularly efficient when the objective function is slow to evaluate and gradients are not easily obtained, as in some PDE-constrained optimization and machine learning problems. The algorithm maps the gradient onto a low-dimensional random subspace of dimension $\ell$ at each iteration, similar to coordinate descent but without restricting directional derivatives to be along the axes. Without requiring a full gradient, this mapping can be performed by computing $\ell$ directional derivatives (e.g., via forward-mode automatic differentiation). We give proofs for convergence in expectation under various convexity assumptions as well as probabilistic convergence results under strong-convexity. Our method extends the well-known Gaussian smoothing technique to descent in subspaces of dimension greater than one, opening the doors to new analysis of Gaussian smoothing when more than one directional derivative is used at each iteration. We also provide a finite-dimensional variant of a special case of the Johnson-Lindenstrauss lemma. Experimentally, we show that our method compares favorably to coordinate descent, Gaussian smoothing, gradient descent and BFGS (when gradients are calculated via forward-mode automatic differentiation) on problems from the machine learning and shape optimization literature.

研究の動機と目的

勾配が高価または入手不能な高次元関数の最適化という課題に対処すること。特にPDE制約付き最適化や機械学習の文脈において有効であることを目的とする。
1回の反復あたりの関数評価回数を次元d未満に削減しつつ、収束保証を維持する手法を開発すること。
1次元方向微分を超えて、より高次元の部分空間へとガウススムージング技術を拡張すること。
凸性および強い凸性の下で、確率的部分空間勾配降下法の理論的収束結果（期待値と確率的収束の両方）を提供すること。
機械学習および形状最適化のベンチマーク問題において、座標降下法、ガウススムージング、勾配降下法、BFGS法と比較して本手法の優位性を実証すること。

提案手法

ランダム行列 Pk ∈ Rd×ℓ を用いて、ℓ 個の方向微分を用いて勾配を近似する。この行列は勾配を低次元部分空間に射影する。
前向きモードの自動微分を用いて、1反復あたり ℓ 回の関数評価で方向微分を効率的に計算する。
E[PkPk⊤] = Id および Pk⊤Pk = (d/ℓ)Iℓ を満たすように設計し、部分空間内のスケーリングと等方性を保証する。
確率的勾配降下更新を適用する：xk+1 = xk − αPkPk⊤∇f(xk)，ここで α は固定ステップサイズである。
有限次元のジョンソン＝リンデンストラウス補題の変種を用いて、部分空間が勾配ノルムを高確率で保存することを保証する。
球対称なランダム行列 Pk（例えばハール分布またはガウス分布）を用いることで、頑健な部分空間埋め込みと確率的収束を達成する。

実験結果

リサーチクエスチョン

RQ1ℓ > 1 個の方向微分を用いる確率的部分空間アプローチは、高次元最適化において座標降下法よりも収束速度とロバスト性に優れるか？
RQ2勾配がランダムな部分空間（次元 ℓ > 1）を用いて近似される場合、部分空間降下法にどのような理論的収束保証を設定できるか？
RQ3提案手法は、1次元方向を超えてガウススムージング技術をどのように拡張するか？
RQ4部分空間次元 ℓ と環境次元 d が収束速度および反復複雑度に与える影響は何か？
RQ5強い凸性のもとで本手法は確率的収束を達成できるか？ 1反復あたりの成功確率はどの程度必要か？

主な発見

強い凸性のもとで、1反復あたり (1 − 2γαλ) の線形収束率を期待値で達成する。ここで γ は強い凸性パラメータ、λ は勾配のリプシッツ定数である。
凸関数の場合、ステップサイズ α = ℓ/(dλ) を用いることで、期待値の最適差は O(1/k) で減少し、k 回反復後には E[f(xk) − f∗] ≤ 2dλR²/(kℓ) が成り立つ。
強い凸性のもとで、アルゴリズムはほとんど確実に最適解 x∗ に収束する。すなわち k → ∞ のとき xk → x∗ almost surely である。
部分空間埋め込みが少なくとも (1−ϵ) の勾配ノルムを保存する確率は、1 − I(1−ϵ)ℓ/d(ℓ/2, (d−ℓ)/2) 以上に保証される。ここで I は正規化 incomplete ベータ関数である。
本手法は1反復あたり ℓ 回の関数評価で十分であり、全勾配計算に必要な d 回よりも顕著に少ない。また、前向きモードADで勾配を計算する場合、BFGS法や勾配降下法よりも優れた性能を示す。
実験的結果では、機械学習および形状最適化問題において、座標降下法、ガウススムージング、BFGS法と比較して優れた性能を発揮しており、特に関数評価が高価な高次元環境下で顕著である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。