QUICK REVIEW

[논문 리뷰] Gradient Descent Can Take Exponential Time to Escape Saddle Points

Simon S. Du, Chi Jin|arXiv (Cornell University)|2017. 05. 29.

Stochastic Gradient Optimization Techniques인용 수 63

한 줄 요약

본 논문은 표준 그래디언트 디센트가 쐐기점(saddle point)을 벗어나는데 지수적 시간이 걸릴 수 있는 반면, 섭동이 포함된 그래디언트 디센트는 다항 시간 내에 벗어날 수 있음을 증명한다.

ABSTRACT

Although gradient descent (GD) almost always escapes saddle points asymptotically [Lee et al., 2016], this paper shows that even with fairly natural random initialization schemes and non-pathological functions, GD can be significantly slowed down by saddle points, taking exponential time to escape. On the other hand, gradient descent with perturbations [Ge et al., 2015, Jin et al., 2017] is not slowed down by saddle points - it can find an approximate local minimizer in polynomial time. This result implies that GD is inherently slower than perturbed GD, and justifies the importance of adding perturbations for efficient non-convex optimization. While our focus is theoretical, we also present experiments that illustrate our theoretical findings.

연구 동기 및 목표

비볼록이고 매끄러운 함수에 대해 임의로 초기화된 그래디언트 디센트가 쐐기점에서 다항 시간 내에 벗어나는지 평가한다.
perturbation 포함 여부에 따른 GD 성능을 분석하기 위해 비비정상적이 아닌 자연스러운 초기화 시나리오를 구성하여 GD의 성능을 분석한다.
GD와 perturb된 GD의 2차차 정지점으로의 수렴 시간을 비교한다.
구성된 반례에 대한 실험으로 이론적 결과를 입증한다.

제안 방법

매끄러움과 엄격한 쐐기점의 형식적 정의를 제공한다(그래디언트 Lipschitz, 해시안 Lipschitz, 그리고 alpha-엄격한 쐐기점).
구성된 매끄러운 함수에서 임의 초기화된 GD가 연쇄된 쐐기점에서 벗어나는데 지수 시간이 걸릴 수 있음을 보인다.
perturbed gradient descent(PGD)를 채택하고 적절한 매개변수하에서 쐐기점을 다항 시간 내에 벗어남을 증명한다.
다중 쐐기점 구성(“tube”와 “octopus”)을 사용한 증명 스케치를 제시하고 이를 d 차원으로 확장한 뒤 Whitney 확장을 통해 R^d로 확장한다.
다차원에서 반례에 대해 GD와 PGD를 비교하는 경험적 시연을 제공한다.

실험 결과

연구 질문

RQ1비볼록하고 매끄러운 함수에서 임의 초기화된 GD가 쐐기점에서 다항 시간 내에 벗어나나?
RQ2비볼록 최적화에서 perturbation이 쐐기점에서 벗어나는 시간에 어떤 영향을 미치는가?
RQ3GD가 본질적으로 지수 시간으로 느려지는 자연스럽거나 거의 자연스러운 초기화를 구성할 수 있는가?
RQ4합리적인 조건에서 GD의 perturb된 변형이 다항 시간 내에 쐐기점에서 벗어나는 것이 증명되는가?

주요 결과

구성된 매끄러운 함수에서 상당히 자연스러운 초기화 하에 GD가 d개의 쐐기점에서 벗어나기 위해 exp(d) 반복이 필요할 수 있다.
Perturbed gradient descent는 poly(d, 1/epsilon) 반복에서 높은 확률로 다항 시간 내에 쐐기점을 벗어난다.
대칭적인 쐐기점이 많은 함수가 존재하여 GD의 벗어나는데 걸리는 시간이 쐐기점의 수에 비례적으로 증가하지만, PGD는 각 쐐기점에서 대략 일정하게 유지된다.
단위 큐브 위에서 균일하게 초기화될 때, GD가 epsilon-2차 stationary 지점에 도달하지 않는 매끄럽고, 제한되며 Lipschitz한 함수가 존재하며, 이 경우 e^{Omega(d)} 단계 내에 높은 확률로 도달하지 못하는 반면 PGD는 도달한다.
아이릭? 추론은 초기화 계열—가우시안 초기화 중 mass가 ell-infinity 구에 집중된 경우를 포함해—으로 결과를 확장하며 지수적 대 다항 시간 대조를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.