Skip to main content
QUICK REVIEW

[논문 리뷰] Batch Size Matters: A Diffusion Approximation Framework on Nonconvex Stochastic Gradient Descent.

Chris Junchi Li, Lei Li|arXiv (Cornell University)|2017. 05. 22.
Stochastic Gradient Optimization Techniques인용 수 5
한 줄 요약

이 논문은 비볼록 최적화에서 비볼록 확률적 경사하강법(SGD)의 동역학을 분석하기 위해 확산 근사 프레임워크를 개발한다. 작은 스텝 사이즈와 전방향 무작위성(omnidirectional noise)이 국소 최소점에서의 지수적 탈출과 안정점에서의 거의 선형적 탈출을 이끌어내는 것으로 보여진다. 작은 배치 크기가 날카로운 최소점과 불안정한 점에서의 탈출을 도와주며, 이후 배치 크기를 늘리면 더 평평한 최소점에 갇히게 되어 일반화 성능이 향상됨을 보여준다.

ABSTRACT

We study the Stochastic Gradient Descent (SGD) method in nonconvex optimization problems from the point of view of approximating diffusion processes. We prove rigorously that the diffusion process can approximate the SGD algorithm weakly using the weak form of master equation for probability evolution. In the small step size regime and the presence of omnidirectional noise, our weak approximating diffusion process suggests the following dynamics for the SGD iteration starting from a local minimizer (resp.~saddle point): it escapes in a number of iterations exponentially (resp.~almost linearly) dependent on the inverse stepsize. The results are obtained using the theory for random perturbations of dynamical systems (theory of large deviations for local minimizers and theory of exiting for unstable stationary points). In addition, we discuss the effects of batch size for the deep neural networks, and we find that small batch size is helpful for SGD algorithms to escape unstable stationary points and sharp minimizers. Our theory indicates that one should increase the batch size at later stage for the SGD to be trapped in flat minimizers for better generalization.

연구 동기 및 목표

  • 비볼록 최적화에서 확산 과정의 관점에서 SGD의 동역학을 이해하기 위해.
  • 작은 스텝 사이즈와 노이즈 조건 하에서 SGD가 국소 최소점과 안정점에서 어떻게 탈출하는지 엄밀히 분석하기 위해.
  • 배치 크기가 탈출 행동과 일반화 성능를 제어하는 데 미치는 역할을 조사하기 위해.
  • 후기 학습 단계에서 배치 크기를 증가시켜 평평한 최소점으로의 수렴을 유리하게 만들기 위한 이론적 근거를 제공하기 위해.

제안 방법

  • SGD의 확률적 진화를 확산 과정으로 약하게 근사하기 위해 마스터 방정식의 약한 형태를 사용한다.
  • 국소 최소점 주변의 이탈 시간을 분석하기 위해 대규모 변동 이론(Large deviations theory)을 적용한다.
  • 불안정한 정적점 주변의 이탈 시간 이론을 활용하여 안정점 탈출 동역학을 연구한다.
  • 스텝 사이즈에 따른 탈출 시간의 의존성을 특성화하여 지수적 스케일링과 거의 선형적 스케일링을 비교한다.
  • 작은 배치 크기가 날카로운 최소점과 안정점에서의 탈출 가능성을 높이는 이론적 조건을 유도한다.
  • 시간이 지남에 따라 배치 크기를 증가시켜 평평한 최소점으로의 수렴을 유도하는 학습 전략을 제안한다.

실험 결과

연구 질문

  • RQ1비볼록 최적화에서 스텝 사이즈는 국소 최소점에서의 SGD 탈출 시간에 어떻게 영향을 미치는가?
  • RQ2배치 크기와 SGD가 안정점 및 날카로운 최소점에서의 탈출 능력 사이의 이론적 관계는 무엇인가?
  • RQ3확산 근사법은 불안정한 점과 안정한 정적점 근처에서 SGD의 동역학을 어떻게 설명하는가?
  • RQ4왜 후기 학습 단계에서 배치 크기를 늘일수록 일반화 성능이 향상되는가?

주요 결과

  • SGD를 확산 과정으로 약하게 근사함으로써, 국소 최소점에서의 탈출 시간이 역수 스텝 사이즈에 대해 지수적으로 증가함을 확인한다.
  • 동일한 조건 하에서 안정점에서의 탈출 시간은 역수 스텝 사이즈에 대해 거의 선형적으로 증가한다.
  • 높은 노이즈 수준으로 인해 작은 배치 크기가 날카로운 최소점과 불안정한 정적점에서의 탈출 가능성을 높인다.
  • 이론적으로 학습 과정 중에 배치 크기를 증가시켜 평평한 최소점으로의 수렴을 유리하게 만들 수 있음을 지지한다. 평평한 최소점은 일반화 성능이 더 좋다.
  • 국소 최소점에 대한 대규모 변동 이론과 불안정한 평형점에 대한 이탈 시간 이론에 기반한 결과이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.