QUICK REVIEW

[논문 리뷰] Non-Gaussianity of Stochastic Gradient Noise

Abhishek Panigrahi, Raghav Somani|arXiv (Cornell University)|2019. 10. 21.

Stochastic Gradient Optimization Techniques참고 문헌 20인용 수 23

한 줄 요약

이 논문은 딥러닝 학습 중 경사하강법(SGD)에서의 확률적 경사 노이즈(SGN)의 분포를 조사한다. 다양한 아키텍처와 데이터셋에서 SGN 투영에 대한 통계적 정규성 검정을 통해, 배치 크기가 ≥256일 경우 특히 초기 학습 단계에서 SGN이 약간 정규분포를 띤다는 것을 발견한다—이러한 결과는 이전 연구에서 안정적(긴 꼬리가 있는) 분포라고 주장한 바와 정반대된다. 결과적으로, 대규모에서 SGN에 중심극한정리(CLT)가 적용됨을 시사하며, 이는 SGD의 정규기반 확률미분방정식(SDE) 근사 모델을 뒷받침한다.

ABSTRACT

What enables Stochastic Gradient Descent (SGD) to achieve better generalization than Gradient Descent (GD) in Neural Network training? This question has attracted much attention. In this paper, we study the distribution of the Stochastic Gradient Noise (SGN) vectors during the training. We observe that for batch sizes 256 and above, the distribution is best described as Gaussian at-least in the early phases of training. This holds across data-sets, architectures, and other choices.

연구 동기 및 목표

딥 네트워크 학습 중 경사하강법(SGD)에서의 확률적 경사 노이즈(SGN)의 통계적 분포를 조사하는 것.
특히 배치 크기와 학습 단계와 관련하여 SGN이 정규분포인지 또는 긴 꼬리가 있는(예: 안정적) 분포인지 테스트하는 것.
이전 연구에서 갈등하는 주장—즉, SGN이 정규분포인지 또는 α-안정분포로 더 잘 모델링되는지—를 엄밀한 통계적 검정을 통해 해결하는 것.
딥러닝 최적화 맥락에서 중심극한정리(CLT)와 일반화된 중심극한정리(GCLT)의 타당성을 평가하는 것.
SGN이 정규분포로 근사될 수 있는 조건을 명확히 하여 SDE 기반 SGD 모델의 타당성 또는 도전을 지원하거나 도전하는 것.

제안 방법

저자들은 학습 중 일정 간격으로 수집한 1,000개의 독립적인 SGN 벡터를 대상으로 Shapiro–Wilk 및 Anderson–Darling 검정을 사용해 SGN 벡터의 정규성 통계적 검정을 수행한다.
각 SGN 벡터에 대해 1,000개의 랜덤 단위벡터에 대한 투영을 수행하고, 이를 통해 유도된 스칼라 투영에 정규성 검정을 적용한다.
검출 능력을 校정하기 위해 합성 정규분포 및 α-안정분포(SαS)의 결과와 테스트 결과를 비교한다.
실험은 여러 모델(3층 퍼셉트론, AlexNet, ResNet18, VGG16), 여러 데이터셋(CIFAR10, MNIST), 다양한 배치 크기(32, 256, 4096)에서 수행된다.
학습률은 10⁻¹, 10⁻², 10⁻³로 다양화되며, 교차엔트로피 손실에 대해 일정 학습률 SGD로 학습이 진행된다.
연구는 학습 에포크 전반에 걸쳐 SGN 행동을 분석하며, 초기 단계와 후기 단계에 초점을 맞춘다.

실험 결과

연구 질문

RQ1대규모 배치 크기에서, 특히 초기 학습 단계에서 SGD의 확률적 경사 노이즈(SGN)는 약간 정규분포를 따르는가?
RQ2배치 크기가 변화함에 따라 SGN의 분포는 어떻게 변화하며, 이는 중심극한정리(CLT) 또는 일반화된 중심극한정리(GCLT)를 지지하는가?
RQ3이전 연구에서 SGN이 긴 꼬리가 있는 α-안정분포를 따른다고 주장한 바와, 본 연구에서 관측된 정규성 간의 모순은 어떻게 설명되는가?
RQ4정규성 검정이 SGN에서 비정규성을 얼마나 잘 탐지하는가? 그리고 다양한 분포 가정 하에서 신뢰도는 어떠한가?
RQ5이전 연구에서 사용된 α-안정분포 추정기의 가정(예: i.i.d. 성분, 진정한 안정성의 유효성)은 일반적인 딥러닝 환경에서 타당한가?

주요 결과

배치 크기가 256 이상일 경우, 모든 테스트된 아키텍처와 데이터셋에서 초기 학습 단계에서 SGN은 정규분포로 가장 잘 기술된다.
배치 크기가 4096일 경우, Shapiro–Wilk 및 Anderson–Darling 검정의 일관된 p-값을 통해 전체 학습 기간 동안 SGN이 약간 정규분포를 띤다.
배치 크기가 32일 경우, 모든 방향과 학습 단계에서 SGN은 일관되게 비정규분포이며, 통계적 검정이 정규성을 기각한다.
중간 배치 크기인 256일 경우, 초기 학습 단계에서는 SGN이 정규분포이지만, 후기 단계에서는 비정규분포로 전이됨을 보여, 노이즈 분포의 전이가 발생함을 시사한다.
이 연구는 이전 연구에서 사용된 α-안정분포 추정기의 결함을 규명한다: 이는 구성 요소가 i.i.d. 이며 진정한 안정성 하에서 유효하다는 가정을 하며, 이는 과도하게 파rameter화된 딥러닝에서 위배된다.
결과적으로, 이전 연구에서 큰 배치 크기에서도 SGN이 안정분포를 따른다고 주장한 바와는 정반대로, 본 연구는 충분히 큰 배치 크기에서 CLT 조건 하에 정규성이 나타남을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.