QUICK REVIEW

[논문 리뷰] On the Origin of Implicit Regularization in Stochastic Gradient Descent

Samuel Smith, Benoît Dherin|arXiv (Cornell University)|2021. 01. 28.

Stochastic Gradient Optimization Techniques참고 문헌 31인용 수 40

한 줄 요약

한두 문장으로 직접적인 요약: 이 논문은 작은 유한 학습률을 갖는 SGD가 수정된 손실에 대한 그래디언트 흐름처럼 작동하며, 미니배치 구조를 고려한 역오차 분석으로 SGD를 위한 이 수정된 손실을 도출한다.

ABSTRACT

For infinitesimal learning rates, stochastic gradient descent (SGD) follows the path of gradient flow on the full batch loss function. However moderately large learning rates can achieve higher test accuracies, and this generalization benefit is not explained by convergence bounds, since the learning rate which maximizes test accuracy is often larger than the learning rate which minimizes training loss. To interpret this phenomenon we prove that for SGD with random shuffling, the mean SGD iterate also stays close to the path of gradient flow if the learning rate is small and finite, but on a modified loss. This modified loss is composed of the original loss function and an implicit regularizer, which penalizes the norms of the minibatch gradients. Under mild assumptions, when the batch size is small the scale of the implicit regularization term is proportional to the ratio of the learning rate to the batch size. We verify empirically that explicitly including the implicit regularizer in the loss can enhance the test accuracy when the learning rate is small.

연구 동기 및 목표

유한 학습률을 갖는 SGD의 설명되지 않는 일반화 이점을 동기화한다.
암묵적 규제 항이 포함된 수정된 손실을 도출하여 SGD의 평균 미니배치 그래디언트 노름을 벌점한다.
SGD와 GD의 암묵적 규제에 따른 차이를 설명한다.
암묵적 규제항을 손실에 포함시키는 것이 테스트 정확도를 개선할 수 있음을 실험적으로 검증한다.

제안 방법

미니배치 구조에 맞춘 역오차 분석을 사용하여 한 에폭 뒤의 평균 SGD 반복에 대한 수정된 손실을 도출한다.
SGD의 수정된 손실은 C(ω) + (ε/4m) ∑_{k=0}^{m-1} ||∇Ĉ_k(ω)||^2 이며, Ĉ_k는 미니배치 비용이다.
GD와 SGD 수정 손실 간의 관계를 확장하여 기울기와 배치 규모 효과를 비교한다.
미니배치 순서화에서 발생하는 바이어스 항을 확인하기 위해 한 에폭 뒤의 기대 SGD 업데이트를 계산한다.
수정된 손실 프레임워크 내에서 학습률과 배치 크기 간의 선형 확장 규칙을 입증한다.
암묵적 규제항을 명시적으로 손실에 포함시키는 것이 작은 학습률에서 테스트 정확도를 높일 수 있음을 실증한다.

실험 결과

연구 질문

RQ1유한 학습률을 갖는 SGD가 수정된 손실상의 그래디언트 흐름 경로를 따르는가?
RQ2미니배치 구조로 인해 SGD에서 나타나는 암묵적 규제의 형태는 무엇인가?
RQ3암묵적 규제항은 학습률과 배치 크기에 따라 어떻게 확장되는가?
RQ4훈련 손실에 암묵적 규제항을 포함시키는 것이 일반화에 도움이 되는가?
RQ5SGD와 GD의 수정 손실은 극값과 궤적에서 어떻게 다른가?

주요 결과

에폭 뒤의 평균 SGD 반복은 수정된 손실의 그래디언트 흐름 경로에 가깝게 남아 있다.
수정된 SGD 손실은 C(ω) + (ε/4m) ∑_{k=0}^{m-1} ||∇Ĉ_k(ω)||^2로 자세히 기재된다.
암묵적 규제 항은 미니배치 그래디언트의 평균 제곱노름을 벌점하며, 규모는 ε/(4m)와 같다.
미니배치 그래디언트가 다양할 경우, 암묵적 규제 항은 ε/B에 비례하여 배치 크기 효과를 설명한다.
수정된 손실을 명시적으로 최적화하는 것은 작은 학습률에서 테스트 정확도를 향상시킬 수 있다.
실험은 암묵적 규제항을 손실에 포함시키면 테스트 성능이 향상될 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.