QUICK REVIEW

[논문 리뷰] Multiplicative noise and heavy tails in stochastic optimization

Liam Hodgkinson, Michael W. Mahoney|arXiv (Cornell University)|2020. 06. 11.

Stochastic Gradient Optimization Techniques참고 문헌 65인용 수 32

한 줄 요약

본 논문은 확률적 최적화를 다중 곱 노이즈를 갖는 마르코프 랜덤 재귀로 모델링하고, SGD, 모멘텀, Adam, 스토캐스틱 뉴턴 등 다양한 옵티마이저에서 베이스 홉과 탐색을 향상시키는 무거운 꼬리의 정상분포를 보여준다.

ABSTRACT

Although stochastic optimization is central to modern machine learning, the precise mechanisms underlying its success, and in particular, the precise role of the stochasticity, still remain unclear. Modelling stochastic optimization algorithms as discrete random recurrence relations, we show that multiplicative noise, as it commonly arises due to variance in local rates of convergence, results in heavy-tailed stationary behaviour in the parameters. A detailed analysis is conducted for SGD applied to a simple linear regression problem, followed by theoretical results for a much larger class of models (including non-linear and non-convex) and optimizers (including momentum, Adam, and stochastic Newton), demonstrating that our qualitative results hold much more generally. In each case, we describe dependence on key factors, including step size, batch size, and data variability, all of which exhibit similar qualitative behavior to recent empirical results on state-of-the-art neural network models from computer vision and natural language processing. Furthermore, we empirically demonstrate how multiplicative noise and heavy-tailed structure improve capacity for basin hopping and exploration of non-convex loss surfaces, over commonly-considered stochastic dynamics with only additive noise and light-tailed structure.

연구 동기 및 목표

stochastic optimization을 Markov random recurrence relations로 동기 부여하고 형식화하여 정상적 동작을 연구한다.
곱셈적 노이즈가 파라미터의 무거운 꼬리(멱법칙) 정상분포를 유도한다는 것을 보인다.
꼬리 꼴 변동과 일반화에 대한 영향을 데이터 분산, 배치 크기, 스텝 크기와 같은 요인들이 어떻게 작용하는지 분석한다.
선형 회귀 설정에서의 결과를 보다 일반적인 볼록/비볼록 목적함수와 모멘텀, Adam, 스토캐스틱 뉴턴을 포함한 최적화 알고리즘으로 확장한다.
무거운 꼬리의 변동이 비볼록 지형에서 배다나 탐색을 개선한다는 실험적 증거를 제공한다.

제안 방법

확률적 최적화 업데이트를 W_{k+1}=A_k W_k + B_k (선형 경우)로 무작위 재귀로 모델링하고, 일반 Ψ에 대해 W_{k+1}=Ψ_k(W_k)로 확장한다.
정상분포가 무거운 꼬리를 갖는지 여부를 특징짓고 곱셈적 노이즈 하에서 꼬리 지수를 도출한다.
일반 Lipschitz 확률적 최적화기에서 멱 꼬리를 갖는 충분 조건을 도출한다(정리 1).
꼬리 모양을 배치 크기, 스텝 크기, 데이터 분산과 같은 알고리즘 요인과 연결한다.
(보조 정리 3)에서 Lipschitz 설정을 넘어서는 재귀적 마르코프 체인에서 무거운 꼬리를 위한 추상적 기준을 제공한다.
연속 시간 유사체를 연결하고 SG-MCMC 및 Langevin 유형 모델에 대한 시사점을 논의한다.

실험 결과

연구 질문

RQ1곱셈적 노이즈로 인해 stochastic optimization 알고리즘이 무거운 꼬리의 정상분포를 보이는 조건은 무엇인가?
RQ2스텝 크기, 배치 크기, 데이터 변동성은 꼬리 지수와 탐색 역학에 어떤 영향을 미치는가?
RQ3무거운 꼬리 변동은 SGD, Adam, 스토캐스틱 뉴턴과 같은 최적화에서 비볼록 손실 지형의 배산징 탐색을 향상시키는가?
RQ4선형-GD 특수 사례와 일반 Lipschitz 모델을 Markov 체인 프레임워크 아래에서 꼬리 거동을 예측하는 데 하나로 묶을 수 있는가?
RQ5딥 러닝의 일반화 및 최적화 동역학에 대한 곱셈적 노이즈 주도 무거운 꼬리의 함의는 무엇인가?

주요 결과

곱셈적 노이즈는 데이터가 경향을 띠는 경우에도 확률적 최적화에서 무거운 꼬리의 정상분포를 생성할 수 있다.
선형 SGD 최소자승의 경우 세 가지 꼬리 체계가 식별되며, 무거운 꼬리의 곱셈적 노이즈가 정상상태에서 멱꼬리를 생성한다.
꼬리의 무거움은 배치 크기, 스텝 크기, 데이터 분산, 정규화, 해시안 조건수에 따라 달라져 탐색 및 일반화에 영향을 준다.
모멘텀, Adam과 같은 적응형 최적화기는 기하적 감쇠를 통해 무거운 꼬리를 억제할 수 있어 탐색과 활용의 균형에 영향을 준다.
경험적으로 곱셈적 노이즈가 비볼록 지형에서 배다나 탐색과 탐색성을 촉진하는 반면 순수 합(additive) 노이즈에 비해 더 큰 영향을 준다.
결과는 이산 시간 마르코프 분석과 연속 시간 Langevin 근사를 연결하며, 확률적 최적화에서 곱셈적 노이즈의 역할을 부각한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.