QUICK REVIEW

[論文レビュー] Escaping Saddle Points in Constrained Optimization

Aryan Mokhtari, Asuman Ozdaglar|arXiv (Cornell University)|Sep 6, 2018

Sparse and Compressive Sensing Techniques被引用数 30

ひとこと要約

本稿では、1次および2次情報の組み合わせにより、制約付き非凸問題における鞍点を脱出する汎用最適化フレームワークを提案する。実行可能集合が二次計画問題の近似解を多項式時間で得られる場合、$(\epsilon,\gamma)$-2次停留点への収束が$\mathcal{O}(\max\{\epsilon^{-2}, \rho^{-3}\gamma^{-3}\})$反復で達成される。また、厳密な鞍点条件の下で、局所的最小値への収束が保証される。

ABSTRACT

In this paper, we study the problem of escaping from saddle points in smooth nonconvex optimization problems subject to a convex set $\mathcal{C}$. We propose a generic framework that yields convergence to a second-order stationary point of the problem, if the convex set $\mathcal{C}$ is simple for a quadratic objective function. Specifically, our results hold if one can find a $ρ$-approximate solution of a quadratic program subject to $\mathcal{C}$ in polynomial time, where $ρ<1$ is a positive constant that depends on the structure of the set $\mathcal{C}$. Under this condition, we show that the sequence of iterates generated by the proposed framework reaches an $(ε,γ)$-second order stationary point (SOSP) in at most $\mathcal{O}(\max\{ε^{-2},ρ^{-3}γ^{-3}\})$ iterations. We further characterize the overall complexity of reaching an SOSP when the convex set $\mathcal{C}$ can be written as a set of quadratic constraints and the objective function Hessian has a specific structure over the convex set $\mathcal{C}$. Finally, we extend our results to the stochastic setting and characterize the number of stochastic gradient and Hessian evaluations to reach an $(ε,γ)$-SOSP.

研究の動機と目的

制約付き非凸最適化における鞍点脱出の課題に取り組むこと。特に、1次停留点が局所的最小値に対応しない可能性がある状況を想定する。
1次および2次情報の両方を活用する汎用アルゴリズムフレームワークを構築し、2次停留点（SOSPs）への収束を実現すること。
制約集合$\mathcal{C}$および目的関数のヘッセ行列に関する特定の構造的仮定の下で、$(\epsilon,\gamma)$-SOSPに到達するまでの反復回数および算術的複雑度を同定すること。
確率的設定への拡張を行い、収束に必要な確率的勾配およびヘッセ行列の評価回数を分析すること。

提案手法

フレームワークは2段階で構成される。まず、1次手法を用いて1次停留点に到達する。次に、2次情報を利用して厳密な鞍点や局所的最大値を脱出する。
凸集合$\mathcal{C}$上での二次計画問題の$\rho$-近似解を多項式時間で計算可能であることに依存する。ここで$\rho < 1$は$\mathcal{C}$の構造に依存する定数である。
ランダム化された方向$\mathbf{d}_t$を用いて、実行可能集合内での曲率をテストし、負の曲率が高確率で検出されることを保証する。
有界な分散を持つ確率的勾配およびヘッセ行列を用い、バッチサイズを用いて曲率推定の誤差確率を制御する。
点が$(\epsilon,\gamma)$-SOSPでない場合、注意深く構築された降下方向を用いて目的関数値が十分に減少することを保証する。
二次制約を持つ場合、算術的演算回数は$\mathcal{O}(\max\{\tau\epsilon^{-2}, d^3 m^7 \gamma^{-3}\})$で抑えられる。ここで$\tau$は線形計画問題を解くか$\mathcal{C}$上への射影を計算するコストを表す。

実験結果

リサーチクエスチョン

RQ1制約集合$\mathcal{C}$がどのような条件下で、1次および2次情報の組み合わせにより、制約付き非凸最適化問題の鞍点を効率的に脱出できるか。
RQ2実行可能集合が二次計画問題の$\rho$-近似解を許容する場合、$(\epsilon,\gamma)$-2次停留点に到達するまでの反復複雑度はどのようになるか。
RQ3アルゴリズムの複雑度は、次元$d$、二次制約の数$m$、および精度パラメータ$\epsilon$と$\gamma$に対してどのようにスケーリングされるか。
RQ4確率的設定において、$(\epsilon,\gamma)$-SOSPに到達するために必要な確率的勾配およびヘッセ行列の評価回数はどのくらいか。
RQ5ノイズを含む勾配およびヘッセ行列推定値を用いた場合、高確率でSOSPへの収束を保証できるか。

主な発見

$\mathcal{C}$上での二次計画問題の$\rho$-近似解が多項式時間で計算可能な場合、提案フレームワークは最大で$\mathcal{O}(\max\{\epsilon^{-2}, \rho^{-3}\gamma^{-3}\})$反復で$(\epsilon,\gamma)$-2次停留点に収束する。
二次制約で定義される凸集合および特定のヘッセ行列構造の下では、総算術的複雑度は$\mathcal{O}(\max\{\tau\epsilon^{-2}, d^3 m^7 \gamma^{-3}\})$で抑えられる。ここで$\tau$は線形計画問題を解くか$\mathcal{C}$上への射影を計算するコストを表す。
確率的設定では、$(\epsilon,\gamma)$-SOSPに到達するまでに$\mathcal{O}(\max\{\epsilon^{-4}, \epsilon^{-2}\rho^{-4}\gamma^{-4}, \rho^{-7}\gamma^{-7}\})$回の確率的勾配評価と$\mathcal{O}(\max\{\epsilon^{-2}\rho^{-3}\gamma^{-3}, \rho^{-5}\gamma^{-5}\})$回の確率的ヘッセ行列評価が必要となる。
確率的勾配およびヘッセ行列のバッチサイズを適切に選ぶことで、アルゴリズムの出力が確率0.92以上で$(\epsilon,\gamma)$-SOSPとなる。
SOSPでない点に対しては、高確率で負の曲率を活用する降下方向を用いて、目的関数値が十分に減少することが保証される。
解析により、高確率でヘッセ行列の近似誤差および勾配推定誤差が有界であることが示され、実行可能集合内での負の曲率の信頼性のある検出が可能となる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。