Skip to main content
QUICK REVIEW

[논문 리뷰] Gradient Descent Can Take Exponential Time to Escape Saddle Points

Simon S. Du, Chi Jin|arXiv (Cornell University)|2017. 05. 29.
Stochastic Gradient Optimization Techniques인용 수 63
한 줄 요약

본 논문은 표준 그래디언트 디센트가 쐐기점(saddle point)을 벗어나는데 지수적 시간이 걸릴 수 있는 반면, 섭동이 포함된 그래디언트 디센트는 다항 시간 내에 벗어날 수 있음을 증명한다.

ABSTRACT

Although gradient descent (GD) almost always escapes saddle points asymptotically [Lee et al., 2016], this paper shows that even with fairly natural random initialization schemes and non-pathological functions, GD can be significantly slowed down by saddle points, taking exponential time to escape. On the other hand, gradient descent with perturbations [Ge et al., 2015, Jin et al., 2017] is not slowed down by saddle points - it can find an approximate local minimizer in polynomial time. This result implies that GD is inherently slower than perturbed GD, and justifies the importance of adding perturbations for efficient non-convex optimization. While our focus is theoretical, we also present experiments that illustrate our theoretical findings.

연구 동기 및 목표

  • 비볼록이고 매끄러운 함수에 대해 임의로 초기화된 그래디언트 디센트가 쐐기점에서 다항 시간 내에 벗어나는지 평가한다.
  • perturbation 포함 여부에 따른 GD 성능을 분석하기 위해 비비정상적이 아닌 자연스러운 초기화 시나리오를 구성하여 GD의 성능을 분석한다.
  • GD와 perturb된 GD의 2차차 정지점으로의 수렴 시간을 비교한다.
  • 구성된 반례에 대한 실험으로 이론적 결과를 입증한다.

제안 방법

  • 매끄러움과 엄격한 쐐기점의 형식적 정의를 제공한다(그래디언트 Lipschitz, 해시안 Lipschitz, 그리고 alpha-엄격한 쐐기점).
  • 구성된 매끄러운 함수에서 임의 초기화된 GD가 연쇄된 쐐기점에서 벗어나는데 지수 시간이 걸릴 수 있음을 보인다.
  • perturbed gradient descent(PGD)를 채택하고 적절한 매개변수하에서 쐐기점을 다항 시간 내에 벗어남을 증명한다.
  • 다중 쐐기점 구성(“tube”와 “octopus”)을 사용한 증명 스케치를 제시하고 이를 d 차원으로 확장한 뒤 Whitney 확장을 통해 R^d로 확장한다.
  • 다차원에서 반례에 대해 GD와 PGD를 비교하는 경험적 시연을 제공한다.

실험 결과

연구 질문

  • RQ1비볼록하고 매끄러운 함수에서 임의 초기화된 GD가 쐐기점에서 다항 시간 내에 벗어나나?
  • RQ2비볼록 최적화에서 perturbation이 쐐기점에서 벗어나는 시간에 어떤 영향을 미치는가?
  • RQ3GD가 본질적으로 지수 시간으로 느려지는 자연스럽거나 거의 자연스러운 초기화를 구성할 수 있는가?
  • RQ4합리적인 조건에서 GD의 perturb된 변형이 다항 시간 내에 쐐기점에서 벗어나는 것이 증명되는가?

주요 결과

  • 구성된 매끄러운 함수에서 상당히 자연스러운 초기화 하에 GD가 d개의 쐐기점에서 벗어나기 위해 exp(d) 반복이 필요할 수 있다.
  • Perturbed gradient descent는 poly(d, 1/epsilon) 반복에서 높은 확률로 다항 시간 내에 쐐기점을 벗어난다.
  • 대칭적인 쐐기점이 많은 함수가 존재하여 GD의 벗어나는데 걸리는 시간이 쐐기점의 수에 비례적으로 증가하지만, PGD는 각 쐐기점에서 대략 일정하게 유지된다.
  • 단위 큐브 위에서 균일하게 초기화될 때, GD가 epsilon-2차 stationary 지점에 도달하지 않는 매끄럽고, 제한되며 Lipschitz한 함수가 존재하며, 이 경우 e^{Omega(d)} 단계 내에 높은 확률로 도달하지 못하는 반면 PGD는 도달한다.
  • 아이릭? 추론은 초기화 계열—가우시안 초기화 중 mass가 ell-infinity 구에 집중된 경우를 포함해—으로 결과를 확장하며 지수적 대 다항 시간 대조를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.