QUICK REVIEW

[논문 리뷰] Three Factors Influencing Minima in SGD

Stanisław Jastrzȩbski, Zachary Kenton|arXiv (Cornell University)|2017. 11. 13.

Sexual Differentiation and Disorders참고 문헌 22인용 수 249

한 줄 요약

본 논문은 학습률/배치 크기 비율(LR/BS)과 그래디언트 공분산이 SGD 최소의 폭과 일반화에 결정적임을, 확률적 미분방정식(SDE) 프레임워크로 분석하고 실험으로 검증한다.

ABSTRACT

We investigate the dynamical and convergent properties of stochastic gradient descent (SGD) applied to Deep Neural Networks (DNNs). Characterizing the relation between learning rate, batch size and the properties of the final minima, such as width or generalization, remains an open question. In order to tackle this problem we investigate the previously proposed approximation of SGD by a stochastic differential equation (SDE). We theoretically argue that three factors - learning rate, batch size and gradient covariance - influence the minima found by SGD. In particular we find that the ratio of learning rate to batch size is a key determinant of SGD dynamics and of the width of the final minima, and that higher values of the ratio lead to wider minima and often better generalization. We confirm these findings experimentally. Further, we include experiments which show that learning rate schedules can be replaced with batch size schedules and that the ratio of learning rate to batch size is an important factor influencing the memorization process.

연구 동기 및 목표

심층 신경망에서 SGD의 동역학과 최종 최소의 기하학적 형상이 LR, BS 및 그래디언트 공분산에 어떻게 의존하는지 조사한다.
LR/BS 비율이 최소 폭과 일반화의 핵심 결정 요인임을 보인다.
LR/BS를 보존하는 학습률과 배치 크기의 재스케일링 하에서도 SGD 동역학의 불변성을 입증한다.
성능 저하 없이 학습률 스케줄을 배치 크기 스케줄로 교체하는 가능성을 탐구한다.
학습 중 암기 다이나믹스와 LR/BS가 이를 어떻게 영향을 미치는지 분석한다.

제안 방법

SGD를 노이즈 분산이 eta/S에 비례하는 확률적 미분방정식(SDE)의 이산화된 Euler-Maruyama 근사로 모델링한다.
최소점 근처를 2차(OU) 근사로 가정하고 LR/BS와 해시안의 트레이스 사이의 관계를 도출한다.
해시안/그래디언트 공분산의 고유 구조를 이용한 변수 변환을 수행하고 정상 분포를 분석한다.
CIFAR-10에서 VGG11, ResNet 같은 아키텍처와 Fashion-MNIST 및 CIFAR-10의 MLP를 사용하여 경험적으로 검증하고, 해시안 관련 양들을 측정하고 일반화를 평가한다.
등방성 대 비등방성 그래디언트 공분산 시나리오를 비교하여 LR/BS가 평형화 및 최소 선택에 미치는 영향을 보여준다.

실험 결과

연구 질문

RQ1SGD 경로와 최종 최소가 학습률, 배치 크기, 그리고 그래디언트 공분산에 따라 어떻게 달라지는가?
RQ2다양한 하이퍼파라미터 설정에서도 SGD 동역학이 주로 LR/BS 비율에 의해 결정되는가?
RQ3LR/BS를 증가시키면 딥 뉴럴 네트워크에서 더 넓은 최소와 향상된 일반화로 이어지는가?
RQ4성능 저하 없이 학습률 스케줄을 배치 크기 스케줄로 교체할 수 있는가?
RQ5훈련 중 LR/BS가 암기 및 과적합 현상에 어떤 영향을 미치는가?

주요 결과

SGD 동역학과 최종 최소는 LR 또는 BS 단독이 아니라 LR/BS 비율에 의해 지배된다.
더 큰 LR/BS는 더 넓은 최소를 낳는 경향이 있으며 종종 더 나은 일반화로 이어진다.
같은 LR/BS 비율을 갖는 SGD 동역학은 재스케일된 서로 다른 하이퍼파라미터에서도 대략 동일하며, 같은 기저 SDE/OU 과정을 따른다.
이차 손실 근사하에서, 최소점에서의 기대 손실은 eta/S와 해시안 트레이스의 스케일에 따라 달라지며, 노이즈 수준과 최소 폭을 연결한다.
실험은 더 큰 LR/BS가 더 낮은 해시안 고유값과 Frobenius 노름과 상관관계가 있으며 검증 성능이 더 우수함을 보여준다.
학습률 스케줄은 학습 동역학을 보존하면서 배치 크기 스케줄로 효과적으로 대체될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.