QUICK REVIEW

[논문 리뷰] Stochastic Gradient Descent on Separable Data: Exact Convergence with a Fixed Learning Rate

Mor Shpigel Nacson, Nathan Srebro|arXiv (Cornell University)|2018. 06. 05.

Stochastic Gradient Optimization Techniques인용 수 35

한 줄 요약

이 논문은 고정된 학습률을 사용하는 확률적 경사 하강법(SGD)이 선형 가르침 가능한 데이터와 매끄럽고 단조 증가하는 손실 함수(예: 로지스틱 손실)를 가진 동차 선형 분류기에서 0 손실로 수렴함을 증명한다. 이는 학습률 감소나 반복 평균화 없이도 성립하며, 교체 및 비교용 샘플링 모두에서 성립한다. 가중치 벡터의 방향은 O(1/log t) 속도로 L2 최대 마진 해법으로 수렴하고, 손실은 O(1/t) 속도로 감소한다.

ABSTRACT

Stochastic Gradient Descent (SGD) is a central tool in machine learning. We prove that SGD converges to zero loss, even with a fixed (non-vanishing) learning rate - in the special case of homogeneous linear classifiers with smooth monotone loss functions, optimized on linearly separable data. Previous works assumed either a vanishing learning rate, iterate averaging, or loss assumptions that do not hold for monotone loss functions used for classification, such as the logistic loss. We prove our result on a fixed dataset, both for sampling with or without replacement. Furthermore, for logistic loss (and similar exponentially-tailed losses), we prove that with SGD the weight vector converges in direction to the $L_2$ max margin vector as $O(1/\log(t))$ for almost all separable datasets, and the loss converges as $O(1/t)$ - similarly to gradient descent. Lastly, we examine the case of a fixed learning rate proportional to the minibatch size. We prove that in this case, the asymptotic convergence rate of SGD (with replacement) does not depend on the minibatch size in terms of epochs, if the support vectors span the data. These results may suggest an explanation to similar behaviors observed in deep networks, when trained with SGD.

연구 동기 및 목표

딥 네트워크에서 고정된 학습률을 사용하는 SGD의 경험적 수렴 관찰과, 학습률 감소나 반복 평균화를 요구하는 이론적 결과 사이의 괴리를 해소하기 위해.
선형 가르침 가능한 데이터에서 동차 선형 분류기의 특수 케이스에서 고정된 학습률을 사용할 때 SGD가 정확히 0 손실로 수렴함을 확립하기 위해.
고정된 학습률 하에서 가중치 벡터 방향이 L2 최대 마진 해법으로 수렴하는 속도와 손실 감소 속도를 규명하기 위해.
학습률가 배치 크기와 비례할 때 배치 크기가 점근적 수렴 속도에 미치는 영향을 분석하기 위해.

제안 방법

선형 가르침 가능한 데이터셋에서 매끄럽고 단조 증가하는 손실 함수(예: 로지스틱 손실)를 가진 동차 선형 분류기에서의 SGD 동역학을 분석한다.
모든 고정된 학습률 하에서 가중치 벡터의 노름이 무한대로 발산함을 증명하여 손실 최소화 가능성을 확보한다.
집중 불등식과 조화급수 근사법을 사용하여 SGD 반복값이 기대값에서 벗어남을 제한한다.
Hoeffding의 부등식을 적용하여, 확률 1로 기울기 업데이트의 확률적 변동이 o(t^{-0.5+ε}) 속도로 감소함을 보인다.
가중치 업데이트를 결정론적 및 확률적 성분으로 분해하여 후자를 점차적으로 소멸함을 도출한다.
교체 및 비교용 샘플링 모두의 경우를 고려하여, 두 경우 모두에서 수렴함을 증명한다.

실험 결과

연구 질문

RQ1고정된 학습률을 사용하는 SGD는 학습률 감소가 필요로 하는 이론적 가정에도 불구하고 선형 가르침 가능한 데이터에서 0 손실로 수렴할 수 있는가?
RQ2고정된 학습률을 사용하는 SGD 하에서 가중치 벡터 방향이 L2 최대 마진 해법으로 수렴하는 속도는 무엇인가?
RQ3로지스틱 손실과 같은 단조 증가 손실 함수에 대해 고정된 학습률을 사용할 때 손실은 시간이 지남에 따라 어떻게 감소하는가?
RQ4학습률가 배치 크기와 비례할 때, 고정된 학습률 하에서 SGD의 점근적 수렴 속도가 배치 크기에 의존하는가?

주요 결과

고정된 학습률을 사용하는 SGD는 학습률 감소나 반복 평균화 없이도 선형 가르침 가능한 데이터와 매끄럽고 단조 증가하는 손실 함수를 가진 경우 0 손실로 수렴한다.
로지스틱 손실 및 유사한 지수 꼬리 손실에 대해 가중치 벡터의 방향은 O(1/log t) 속도로 L2 최대 마진 해법으로 수렴한다.
학습 손실은 O(1/t) 속도로 감소하며, 동일 문제에 대해 경사 하강법의 수렴 속도와 일치한다.
고정된 학습률가 배치 크기와 비례할 경우, 교체 샘플링을 사용하는 SGD의 점근적 수렴 속도는 배치 크기에 관계없이 에포크 기준으로 독립적이다. 이는 지지 벡터가 데이터를 덮을 때 성립한다.
교체 및 비교용 샘플링 모두에서 동일한 고정된 학습률 조건 하에서 수렴 결과가 성립한다.
이론적 분석을 통해 가중치 업데이트의 확률적 변동이 점차적으로 소멸함을 확인하여 최적의 방향으로의 수렴을 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.