[논문 리뷰] Decoupled Weight Decay Regularization
본 논문은 L2 정규화가 Adam과 같은 적응형 최적화 알고리즘에서 가중치 감소(weight decay)와 동등하지 않음을 제시하고, decoupled weight decay(AdamW/SGDW)를 제안하며, 일반화 성능과 하이퍼파라미터 튜닝의 용이성이 향상됨을 보여준다.
L$_2$ regularization and weight decay regularization are equivalent for standard stochastic gradient descent (when rescaled by the learning rate), but as we demonstrate this is \emph{not} the case for adaptive gradient algorithms, such as Adam. While common implementations of these algorithms employ L$_2$ regularization (often calling it "weight decay" in what may be misleading due to the inequivalence we expose), we propose a simple modification to recover the original formulation of weight decay regularization by \emph{decoupling} the weight decay from the optimization steps taken w.r.t. the loss function. We provide empirical evidence that our proposed modification (i) decouples the optimal choice of weight decay factor from the setting of the learning rate for both standard SGD and Adam and (ii) substantially improves Adam's generalization performance, allowing it to compete with SGD with momentum on image classification datasets (on which it was previously typically outperformed by the latter). Our proposed decoupled weight decay has already been adopted by many researchers, and the community has implemented it in TensorFlow and PyTorch; the complete source code for our experiments is available at https://github.com/loshchil/AdamW-and-SGDW
연구 동기 및 목표
- 연구 동기를 제시: 이미지 작업에서 모멘텀을 가진 SGD에 비해 적응형 그래디언트 방법이 일반화가 잘 되지 않는다.
- 적응형 최적화 알고리즘에서 L2 정규화가 가중치 감소와 비동등하다는 것을 보인다.
- 해결책으로 decoupled weight decay 를 제안하고 일반화 및 하이퍼파라미터 튜닝에 미치는 영향을 분석한다.
제안 방법
- 가중치 감소를 그래디언트 기반 업데이트와 분리된 단계로 정의한다(Algorithm 1 SGDW).
- 이 아이디어를 Adam에 확장하여 AdamW(Algorithm 2)를 형성한다.
- 적응형 방법에서 L2 와 가중치 감소의 비동등성을 보이는 이론적 명제를 제시한다(Propositions 2 및 3).
- Bayesian filtering 관점(Aitchison 2018)에서 decoupled weight decay 를 정당화한다.
- 다양한 학습률 스케줄을 사용하여 CIFAR-10, CIFAR-100, ImageNet32x32 에서 Adam, AdamW, SGD, SGDW를 경험적으로 비교한다.
실험 결과
연구 질문
- RQ1적응형 그래디언트 방법인 Adam 에 대해 L2 정규화가 가중치 감소와 동일한가?
- RQ2Adam 에 대해 가중치 감소를 그래디언트 업데이트로부터 분리하면 일반화가 향상되는가?
- RQ3학습률 스케줄이 SGD/Adam에서 decoupled weight decay 와 어떻게 상호작용하는가?
- RQ4decoupled weight decay 를 사용할 때 하이퍼파라미터 튜닝은 더 쉬운가?
주요 결과
- L2 정규화는 Adam 같은 적응형 그래디언트 방법에서 가중치 감소와 동등하지 않다.
- decoupled weight decay 를 가진 AdamW 는 L2 정규화를 가진 Adam 보다 일반화가 상당히 우수하며, 실험한 데이터셋에서 테스트 에러가 약 15% 상대 개선을 달성한다.
- 가중치 감소를 그래디언트 업데이트로부터 분리하면 학습률 하이퍼파라미터와 가중치 감소 하이퍼파라미터가 분리되어 하이퍼파라미터 튜닝이 더 용이해진다.
- Cosine annealing 및 warm restarts 는 AdamW 와 SGDW 의 성능을 향상시켜 Momentum 을 갖춘 SGD 와의 간극을 줄인다.
- AdamW 는 CIFAR-10, CIFAR-100, ImageNet32x32 전반에서 더 나은 일반화를 보고하고, AdamWR 은 언제든지 성능을 크게 개선한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.