QUICK REVIEW

[論文レビュー] "Convex Until Proven Guilty": Dimension-Free Acceleration of Gradient Descent on Non-Convex Functions

Yair Carmon, Oliver Hinder|arXiv (Cornell University)|May 8, 2017

Sparse and Compressive Sensing Techniques参考文献 15被引用数 34

ひとこと要約

この論文は、非凸最適化のための次元に依存しない加速勾配降下法を提案しており、標準的なネステロフ加速が停止した際に負の曲率を検出することで、決定論的かつ高速な収束を実現する。$ O(\tilde{\rho}^{-7/4} \log(1/\epsilon)) $ の勾配および関数評価回数で $ \epsilon $-停留点を特定でき、標準的勾配降下法の $ O(\epsilon^{-2}) $ のレートを改善する。

ABSTRACT

We develop and analyze a variant of Nesterov's accelerated gradient descent (AGD) for minimization of smooth non-convex functions. We prove that one of two cases occurs: either our AGD variant converges quickly, as if the function was convex, or we produce a certificate that the function is "guilty" of being non-convex. This non-convexity certificate allows us to exploit negative curvature and obtain deterministic, dimension-free acceleration of convergence for non-convex functions. For a function $f$ with Lipschitz continuous gradient and Hessian, we compute a point $x$ with $\| abla f(x)\| \le ε$ in $O(ε^{-7/4} \log(1/ ε) )$ gradient and function evaluations. Assuming additionally that the third derivative is Lipschitz, we require only $O(ε^{-5/3} \log(1/ ε) )$ evaluations.

研究の動機と目的

機械学習における実用的成功にもかかわらず、非凸最適化における証明可能な加速の欠如に対処する。
非凸関数の $ \epsilon $-停留点を求める際の標準的勾配降下法の $ O(\epsilon^{-2}) $ の最悪ケース複雑度を克服する。
存在する負の曲率を活用することで、凸性に依存せずに高速収束を実現する手法を開発する。
ネステロフの加速勾配降下法の過程で非凸性を証明する証明書を用いて、次元に依存しない加速を達成する。
高階の滑らかさ仮定（例えば、3階微分がリプシッツ連続）の下で収束レートを改善する。

提案手法

ネステロフの加速勾配降下法（AGD）を監視し、関数が強く凸でないことを、$ f(u) < f(v) + \nabla f(v)^T(u-v) + \frac{\sigma}{2}\|u-v\|^2 $ を満たす証拠ペア $ u, v $ の存在で検出する。
このような証拠が発見された場合、負の曲率を活用して収束を加速し、非凸関数に対しても進捗を保証する。
元の関数にプロキシマル正則化子を適用したAGDを適用し、凸的および非凸的領域の両方で段階的進捗を可能にする。
検出された負の曲率を活用して、関数値をより大きく減少させるステップを取ることで、標準的勾配降下法を上回る収束を実現する。
3階微分がリプシッツ連続であるという仮定の下で、より大きなステップサイズを許容し、複雑度を改善する。
勾配および関数評価回数の観点から、1階オракルモデルにおける複雑度を測定し、決定論的収束に焦点を当てる。

実験結果

リサーチクエスチョン

RQ1ネステロフの加速勾配降下法を、非凸関数に適応させ、非凸性を検出することで、証明可能な加速を達成できるか？
RQ2標準的な滑らかさ仮定の下で、滑らかな非凸最適化において $ \epsilon $-停留点を求める際の最適な収束レートは何か？
RQ3負の曲率の存在が加速勾配法の収束に与える影響は何か？そして、それを決定論的に活用できるか？
RQ4確率的またはランダム化に依存せずに、$ O(\epsilon^{-2}) $ を超える収束レートを改善できるか？
RQ53階微分がリプシッツ連続であるという仮定は、決定論的1階最適化法の収束レートに顕著な改善をもたらすか？

主な発見

提案手法は、ヘッセ行列がリプシッツ連続である滑らかな非凸関数に対して、$ \epsilon $-停留点を特定するための1階オラクル複雑度として $ O(\epsilon^{-7/4} \log(1/\epsilon)) $ の勾配および関数評価回数を達成する。
さらに3階微分がリプシッツ連続であるという仮定を追加すると、複雑度は $ O(\epsilon^{-5/3} \log(1/\epsilon)) $ に改善され、標準的手法に比べ顕著な向上が得られる。
AGDの反復中に証明書を用いて非凸性を検出し、加速が停止した際に負の曲率の活用に切り替える。
実験では、標準的勾配降下法および負の曲率を活用しない変種（C-Alg. 3）よりも優れた性能を示し、特に負の曲率が存在する場合に顕著である。
MNISTにおけるニューラルネットワーク学習では、負の曲率が一度も検出されず、損失関数の形状がその領域で実質的に凸であることが示唆され、実証的観察と整合的である。
非線形共役勾配法を上回らなかったが、次元に依存せず決定論的な加速メカニズムを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。