QUICK REVIEW

[논문 리뷰] An Alternative View: When Does SGD Escape Local Minima?

Robert Kleinberg, Yuanzhi Li|arXiv (Cornell University)|2018. 02. 17.

Stochastic Gradient Optimization Techniques참고 문헌 9인용 수 42

한 줄 요약

이 논문은 SGD를 손실의 컨볼루션(스무딩된) 버전에 대한 최적화로 분석하고, 컨볼루션된 함수가 대상 x* 방향으로 일점 강볼록성(one-point strongly convex)을 가지면 SGD가 일정 확률로 x* 근처에 접근하고 그 근처에 머무른다고 하여, 왜 SGD가 샤프한 국소 최적점들을 피하는지 설명한다.

ABSTRACT

Stochastic gradient descent (SGD) is widely used in machine learning. Although being commonly viewed as a fast but not accurate version of gradient descent (GD), it always finds better solutions than GD for modern neural networks. In order to understand this phenomenon, we take an alternative view that SGD is working on the convolved (thus smoothed) version of the loss function. We show that, even if the function $f$ has many bad local minima or saddle points, as long as for every point $x$, the weighted average of the gradients of its neighborhoods is one point convex with respect to the desired solution $x^*$, SGD will get close to, and then stay around $x^*$ with constant probability. More specifically, SGD will not get stuck at "sharp" local minima with small diameters, as long as the neighborhoods of these regions contain enough gradient information. The neighborhood size is controlled by step size and gradient noise. Our result identifies a set of functions that SGD provably works, which is much larger than the set of convex functions. Empirically, we observe that the loss surface of neural networks enjoys nice one point convexity properties locally, therefore our theorem helps explain why SGD works so well for neural networks.

연구 동기 및 목표

SGD를 손실 함수의 컨볼루션 버전에서 작동하는 대안적 관점으로 동기를 부여하고 정식화한다.
f에 다수의 나쁜 로컬 최소점이나 사다리가 많은 경우에도, 컨볼루션된 함수의 일점 강볼록성으로 인해 SGD가 좋은 로컬 최소점으로 수렴할 수 있음을 보여준다.
SGD가 실제적으로 타깃 해법 근처에 머무르고 샤프한 최소점을 탈출하는 것을 증명하는 현실적인 조건을 확인한다.

제안 방법

g_t(y)=E_{ω∈W(x)}[f(y−ηω)]를 도입한다.
해석 시퀀스 y_t=x_t−η∇f(x_t)를 정의하고 SGD를 g_t에 대한 경사하강과 연관시킨다.
가정 1(주요 가정): 노이즈와의 컨볼루션 후 f가 x*를 기준으로 c-one-point strongly convex가 된다.
정리 4를 증명한다: 적절한 η, r(노이즈 상한), 그리고 c에 대해, SGD는 미래의 시간 구간 동안 확률 상수로 y_t를 x*에서 O(η r^2/c) 이내로 유지한다.
코릴러리 2(학습률 축소): 단계적 학습률을 사용하면 국소 수렴이 향상된다.
로컬 손실 표면이 일점 강볼록성 특성을 보인다는 경험적 관찰을 제시하고 학습률의 역할을 설명한다.

실험 결과

연구 질문

RQ1gradient 노이즈의 스무딩 효과로 인해 SGD가 샤프한 국소 최소점에서 벗어나는 조건은 무엇인가?
RQ2컨볼루션된 손실의 일점 강볼록성이 SGD가 타깃 해법 근처에 머무르는 것을 보장하고, 학습률 및 노이즈에 대한 정량적 함의는 무엇인가?
RQ3학습률 스케줄이 컨볼루션 기반 관점과 어떻게 상호작용하여 좋은 로컬 최소점으로의 수렴에 영향을 주는가?

주요 결과

SGD는 손실의 컨볼루션(스무딩) 버전에서 작동하며, 이로 인해 샤프한 국소 최소점이 제거될 수 있다.
만약 컨볼루션된 손실이 x*를 향해 c-one-point 강볼록성이라면, SGD는 x*로 수렴하고 확률적으로 그 근처에 머물 수 있다.
적절히 작은 η와 바운드된 노이즈(r) 하에서, O(η r^2/c) 수준의 근접성을 일정 시간 창에서 확보하는 양적 경계가 존재한다.
원래 함수의 한 점 강볼록성에도 불구하고 학습률이 너무 크면 수렴을 방해할 수 있으며, 전체 기울기 하강이 x*에서 벗어나 발산할 수 있다.
현대 신경망은 손실 지형에서 로컬 일점 강볼록성을 보이는 경향이 있어 제안된 이론을 실증적으로 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.