QUICK REVIEW

[논문 리뷰] Towards Optimal One Pass Large Scale Learning with Averaged Stochastic Gradient Descent

Wei Xu|arXiv (Cornell University)|2011. 07. 13.

Stochastic Gradient Optimization Techniques참고 문헌 17인용 수 120

한 줄 요약

이 논문은 대규모 데이터셋에서 단일 패assing 동안 최적 수렴을 가능하게 하는 Averaged Stochastic Gradient Descent (ASGD)를 위한 학습률 스케줄을 제안한다. 이는 점 渐진 성능에 도달하기 위해 필요한 샘플 수를 크게 감소시킨다. 이 방법은 최소한의 계산 오버헤드로 선형 분류기에서 최신 기술 수준의 정확도를 달성하며, 테스트 오차와 학습 효율성 측면에서 표준 SGD 및 기타 최적화 알고리즘을 능가한다.

ABSTRACT

For large scale learning problems, it is desirable if we can obtain the optimal model parameters by going through the data in only one pass. Polyak and Juditsky (1992) showed that asymptotically the test performance of the simple average of the parameters obtained by stochastic gradient descent (SGD) is as good as that of the parameters which minimize the empirical cost. However, to our knowledge, despite its optimal asymptotic convergence rate, averaged SGD (ASGD) received little attention in recent research on large scale learning. One possible reason is that it may take a prohibitively large number of training samples for ASGD to reach its asymptotic region for most real problems. In this paper, we present a finite sample analysis for the method of Polyak and Juditsky (1992). Our analysis shows that it indeed usually takes a huge number of samples for ASGD to reach its asymptotic region for improperly chosen learning rate. More importantly, based on our analysis, we propose a simple way to properly set learning rate so that it takes a reasonable amount of data for ASGD to reach its asymptotic region. We compare ASGD using our proposed learning rate with other well known algorithms for training large scale linear classifiers. The experiments clearly show the superiority of ASGD.

연구 동기 및 목표

ASGD가 최적의 渐진 수렴을 보이지만 대규모 학습에서 실용적 적용이 부족한 데에 대비하여 대응한다.
표준 학습률 선택 조건 하에서 ASGD가 점 渐진 영역에 도달하기 위해 비현실적으로 큰 수의 샘플이 필요한 이유를 규명한다.
유한 샘플 분석을 통해 ASGD의 수렴 속도를 가속화할 수 있는 학습률 스케줄 설계를 위한 가이드라인을 제시한다.
제안된 학습률 스케줄이 ASGD가 데이터를 한 번만 통과해도 우수한 테스트 정확도를 달성할 수 있음을 경험적으로 검증한다.
제안된 학습률 스케줄을 적용한 ASGD가 정확도, 강인성, 학습 속도 측면에서 다른 최신 기술 수준의 알고리즘을 능가함을 보여준다.

제안 방법

Polyak와 Juditsky의 ASGD 방법에 대한 유한 샘플 분석을 제안하여 점 渐진 수렴 영역에 도달하기 위해 필요한 샘플 수를 정량화한다.
헤시안의 최소 고유값과 정규화 파라미터에 기반하여 데이터에 의존하는 학습률 스케줄을 유도하며, 이는 ASGD가 합리적인 샘플 수 이내로 최적 성능 영역에 도달하도록 보장한다.
최종 모델 추정치로 SGD 파라미터의 누적 평균 $\bar{\theta}_t = \frac{1}{t}\sum_{j=1}^{t}\theta_j$ 를 사용하여 점 渐진 성질의 우수성을 활용한다.
자신의 학습률을 선형 모델에 적용하며, 볼록하고 부드러운 손실 함수(예: 제곱 허프 손실)와 L2 정규화를 사용한다.
실용적인 학습률 스케줄 $\gamma_t = \frac{\gamma_0}{1 + \gamma_0 \lambda_0 t}$ 를 적용하며, 여기서 $\lambda_0$ 는 정규화 파라미터 $\lambda$ 에 의해 근사된다.
MNIST, RCV1 및 대규모 텍스트 및 이미지 분류 작업을 포함한 합성 및 실세계 데이터셋에서 방법을 검증한다.

실험 결과

연구 질문

RQ1ASGD가 최적의 점 渐진 수렴을 보이지만 최근 대규모 학습 연구에서 제한적으로 다뤄진 이유는 무엇인가?
RQ2표준 학습률 스케줄 조건 하에서 ASGD가 점 渐진 성능 영역에 도달하기 위해 일반적으로 얼마나 많은 학습 샘플이 필요한가?
RQ3유한 샘플 분석을 활용하여 더 적은 샘플 수로 최적 영역으로 수렴하는 데에 가속화하는 학습률 스케줄을 설계할 수 있는가?
RQ4제안된 학습률 스케줄을 적용한 ASGD는 테스트 정확도와 학습 효율성 측면에서 다른 최신 기술 수준의 최적화 알고리즘을 능가하는가?
RQ5이론적 가정이 부드러운 손실 함수를 요구함에도 불구하고, ASGD는 비부드러운 허프 손실과 같은 비부드러운 손실 함수에서도 강력한 성능을 발휘할 수 있는가?

주요 결과

제안된 학습률 스케줄은 표준 학습률 대비 훨씬 적은 샘플 수로 ASGD가 점 渐진 성능 영역에 도달할 수 있도록 한다.
제안된 학습률 스케줄을 적용한 ASGD는 MNIST9, RCV1 및 합성 데이터를 포함한 모든 평가된 데이터셋에서 가장 낮은 테스트 오차율을 기록하며, 일반적으로 단 한 번의 데이터 패assing 이후 다른 알고리즘을 능가한다.
ASGD는 SGD, SGDQN, oLBFGS와 같은 다른 방법들과 비교해 더 안정적이고 변동성이 적은 성능 곡선을 보이며, 뛰어난 강인성을 보인다.
다른 알고리즘이 같은 시점에서 여전히 낮은 성능을 보일 때, ASGD는 단 한 번의 패assing만으로 최신 기술 수준의 정확도를 달성한다.
이론적 가정이 부드러운 손실 함수를 요구함에도 불구하고, 제안된 학습률 스케줄을 적용한 ASGD는 비부드러운 허프 손실에서도 잘 작동함을 보여, 더 넓은 적용 가능성을 시사한다.
패assing 당 학습 시간은 다른 방법들과 유사하므로, 특히 일회 패assing 요구 조건을 고려할 때 ASGD는 다른 알고리즘보다 더 빠르게 높은 정확도에 도달한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.