Skip to main content
QUICK REVIEW

[논문 리뷰] First-order Stochastic Algorithms for Escaping From Saddle Points in Almost Linear Time

Yi Xu, Rong Jin|arXiv (Cornell University)|2017. 11. 03.
Sparse and Compressive Sensing Techniques인용 수 58
한 줄 요약

이 논문은 Hessian에서 음의 곡률을 추출하는 1차 확률적 절차인 NEON을 도입합니다. 이를 통해 saddle point에서 거의 선형 시간으로 탈출하고, 높은 확률로 거의 2차 차수의 정지점에 가까운 해를 찾습니다.

ABSTRACT

Two classes of methods have been proposed for escaping from saddle points with one using the second-order information carried by the Hessian and the other adding the noise into the first-order information. The existing analysis for algorithms using noise in the first-order information is quite involved and hides the essence of added noise, which hinder further improvements of these algorithms. In this paper, we present a novel perspective of noise-adding technique, i.e., adding the noise into the first-order information can help extract the negative curvature from the Hessian matrix, and provide a formal reasoning of this perspective by analyzing a simple first-order procedure. More importantly, the proposed procedure enables one to design purely first-order stochastic algorithms for escaping from non-degenerate saddle points with a much better time complexity (almost linear time in terms of the problem's dimensionality). In particular, we develop a {\\bf first-order stochastic algorithm} based on our new technique and an existing algorithm that only converges to a first-order stationary point to enjoy a time complexity of {$\\widetilde O(d/\\epsilon^{3.5})$ for finding a nearly second-order stationary point $\\bf{x}$ such that $\\|\ abla F(bf{x})\\|\\leq \\epsilon$ and $\ abla^2 F(bf{x})\\geq -\\sqrt{\\epsilon}I$ (in high probability), where $F(\\cdot)$ denotes the objective function and $d$ is the dimensionality of the problem. To the best of our knowledge, this is the best theoretical result of first-order algorithms for stochastic non-convex optimization, which is even competitive with if not better than existing stochastic algorithms hinging on the second-order information.

연구 동기 및 목표

  • 확률적 비볼록 최적화 문제를 동기 부여하고 다룬다.
  • 노이즈로부터 음의 곡률 기원을 이용해 비퇴화된 saddle point에서 탈출하는 1차 절차(NEON)를 개발한다.
  • 1차 정보만으로 2차 수렴 보장을 제공하는 프레임워크를 제시한다.
  • 문제 차원에 대해 거의 선형 시간 복잡도로 거의 2차 정지점에 가까운 해를 찾는 것을 달성한다.

제안 방법

  • NEON: 노이즈에서 시작해 해시안으로부터 음의 곡률을 추출하는 절차를 도입한다.
  • NEON을 일반적인 1차 확률적 알고리즘 프레임워크에 통합한다.
  • 순수 1차 확률적 방법으로 2차 수렴 보장을 얻는 프레임워크를 증명한다.
  • 문제 차원에 대한 거의 선형 의존성을 보이고 시간 복잡도 결과를 도출한다.
  • 다양한 구성요소를 가진 finite-sum 설정과의 관련성을 보인다.

실험 결과

연구 질문

  • RQ1노이즈에서 자연스럽게 발생하는 음의 곡률을 활용하여 1차 확률적 방법으로 saddle point에서 효율적으로 탈출할 수 있는가?
  • RQ2확률적 비볼록 최적화에서 1차 정보만을 사용해 거의 2차 정지점을 찾는 시간 복잡도는 무엇인가?
  • RQ3NEON을 일반적인 SGD-유형 알고리즘에 통합하여 고확률로 2차 수렴을 보장할 수 있는가?
  • RQ4전체 알고리즘의 실행 시간이 차원에 대해 거의 선형에 얼마나 근접하게 가능한가?
  • RQ5제안된 방법은 기대값 형식의 문제와 큰 finite-sum 문제 모두에 적용 가능한가?

주요 결과

  • NEON을 노이즈 기반 수열을 사용해 Hessian에서 음의 곡률을 추출하도록 제안한다.
  • 순수 1차 확률적 방법으로 2차 수렴 보장을 달성하는 프레임워크를 개발한다.
  • 높은 확률로 ∥∇F(x)∥ ≤ ε 이고 ∇^2F(x) ≥ −√ε I 를 만족하는 점을 찾는 최적 시간 복잡도는 ~O(d/ε^{3.5})임을 보인다.
  • 사이드 포인트를 탈출하는 데 있어 문제 차원에서 거의 선형 시간임을 입증한다.
  • 1차 확률적 알고리즘이 2차 수렴 정지점과 경쟁력 있는 결과를 얻으며 2차 정보를 이용한 방법과 비슷한 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.