QUICK REVIEW

[논문 리뷰] The Anisotropic Noise in Stochastic Gradient Descent: Its Behavior of Escaping from Sharp Minima and Regularization Effects

Zhanxing Zhu, Jingfeng Wu|ePrints Soton (University of Southampton)|2018. 03. 01.

Stochastic Gradient Optimization Techniques인용 수 94

한 줄 요약

본 논문은 손실 곡률에 정렬된 SGD의 비등방성 노이즈가 샤프한 미니마에서 벗어나는 것을 강화하고 일반화 효과를 가져오며, 등방성 확산 유사체보다 우수한 성능을 보인다는 점을 분석한다.

ABSTRACT

Understanding the behavior of stochastic gradient descent (SGD) in the context of deep neural networks has raised lots of concerns recently. Along this line, we study a general form of gradient based optimization dynamics with unbiased noise, which unifies SGD and standard Langevin dynamics. Through investigating this general optimization dynamics, we analyze the behavior of SGD on escaping from minima and its regularization effects. A novel indicator is derived to characterize the efficiency of escaping from minima through measuring the alignment of noise covariance and the curvature of loss function. Based on this indicator, two conditions are established to show which type of noise structure is superior to isotropic noise in term of escaping efficiency. We further show that the anisotropic noise in SGD satisfies the two conditions, and thus helps to escape from sharp and poor minima effectively, towards more stable and flat minima that typically generalize well. We systematically design various experiments to verify the benefits of the anisotropic noise, compared with full gradient descent plus isotropic diffusion (i.e. Langevin dynamics).

연구 동기 및 목표

편향되지 않은 노이즈를 가진 SGD 역학과 일반화에 미치는 영향에 대한 이해를 자극한다.
SGD와 Langevin 역학을 통합하는 일반적인 그래디언트 기반 최적화 역학을 도입한다.
노이즈-곡률 정렬을 통한 탈출 효율성을 측정하는 새로운 지표를 도출한다.
비등방성 노이즈가 등방성 노이즈보다 미니마에서 벗어날 때 더 우수한 조건을 수립한다.
신경망에서 다수의 실험을 통해 비등방성 노이즈의 이점을 실증적으로 검증한다.

제안 방법

SGD와 Langevin 역학을 통합하는 편향되지 않은 노이즈를 갖는 일반적인 그래디언트 기반 확률 동역학을 형식화한다.
헤essian(H)와 노이즈 공분산 Sigma의 곱의 trace인 Tr(H Sigma) 기반의 탈출 효율성 지표를 도출한다.
노이즈 구조와의 연관성을 두고 미니마 근방에서 Ornstein-Uhlenbeck 근사를 사용해 분석한다.
열악하게 조건이 좋은 헤essian(H)과 정렬된 비등방성 노이즈가 우수한 탈출 성능과 연관된 명제를 증명한다.
장난모형(toy models)과 실제 데이터세트에서 다양한 GLD 변형(등방성 및 비등방성 노이즈)을 사용한 SGD를 비교하는 실험을 설계하고 수행한다.

실험 결과

연구 질문

RQ1SGD 노이즈 공분산 Sigma의 구조가 그 크기를 넘어서 미니마에서 벗어나는 데 어떤 영향을 미치는가?
RQ2헤essian와 정렬된 비등방성 노이즈가 등방성 노이즈에 비해 샤프한 미니마에서 벗어날 때 더 우수한 조건은 무엇인가?
RQ3SGD 노이즈 공분산이 신경망의 손실 지형 곡률과 어떤 관계가 있는가?
RQ4비등방성 확산이 SGD의 평평한 미니마로의 회귀 효과와 일반화를 설명할 수 있는가?

주요 결과

지표 Tr(H Sigma)가 탈출 효율성을 지배하며, 값이 높을수록 미니마에서 더 빠르게 탈출하는 경향이 있다.
헤essian와 정렬된 비등방성 노이즈가 등방성 노이즈보다 샤프한 미니마에서 벗어나는 데 우수할 수 있으며, 특히 헤essian가 악조건일 때 그렇다.
SGD 노이즈 공분산은 헤essian/Fisher 정보와 관련이 있어, 최소점 근방의 기울기 분산과 곡률 간의 정렬이 있음을 시사한다.
신경망에서 SGD는 일반적으로 등방성 확산 방법보다 더 빨리 평평한 미니마로 탈출하는 조건을 만족한다.
토이 모델과 실데이터셋(FashionMNIST, SVHN, CIFAR-10) 실험에서 비등방성 SGD 유사 노이즈가 등방성 GLD 변형보다 더 평탄한 미니마와 더 나은 일반화를 가져온다.
등방성 노이즈는 실제 손실 지형의 비등방성 특성 때문에 샤프한 미니마에서의 탈출을 크게 개선하지 못한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.