QUICK REVIEW

[논문 리뷰] Averaging Weights Leads to Wider Optima and Better Generalization

Pavel Izmailov, D. A. Podoprikhin|arXiv (Cornell University)|2018. 03. 14.

Advanced Neural Network Applications참고 문헌 23인용 수 227

한 줄 요약

확률적 가중치 평균화(SWA)는 SGD 궤적을 따라 주기적 또는 상수 학습률로 가중치를 평균화하여 일반화와 더 완만한 최적점(flatter optima)을 얻고, 종종 하나의 모델로 FGE 앙상블과 맞먹거나 능가합니다.

ABSTRACT

Deep neural networks are typically trained by optimizing a loss function with an SGD variant, in conjunction with a decaying learning rate, until convergence. We show that simple averaging of multiple points along the trajectory of SGD, with a cyclical or constant learning rate, leads to better generalization than conventional training. We also show that this Stochastic Weight Averaging (SWA) procedure finds much flatter solutions than SGD, and approximates the recent Fast Geometric Ensembling (FGE) approach with a single model. Using SWA we achieve notable improvement in test accuracy over conventional SGD training on a range of state-of-the-art residual networks, PyramidNets, DenseNets, and Shake-Shake networks on CIFAR-10, CIFAR-100, and ImageNet. In short, SWA is extremely easy to implement, improves generalization, and has almost no computational overhead.

연구 동기 및 목표

딥 네트워크의 손실 표면 기하학과 가중치 공간 평균화의 잠재적 일반화 이점에 대한 연구를 동기부여한다.
SWA를 SGD의 구현이 쉬운 수정으로 소개한다.
SWA가 해를 가지는 폭(width)와 최적점의 평탄도에 어떤 영향을 미치는지 분석한다.
CIFAR, ImageNet 및 다양한 아키텍처에서 SWA를 실험적으로 평가하고 SGD 및 FGE 앙상블과 비교한다.

제안 방법

SWA를 학습 중에 Cyclical 또는 constant learning rate로 수집된 여러 SGD 가중치 제안의 동등 가중 평균으로 정의한다.
주기적 또는 고정 상수 학습률 스케줄을 사용하여 가중치 공간의 고성능 영역을 탐색한 다음, captured weights의 실행 평균으로 w_SWA를 계산한다.
필요시 SWA 가중치를 사용한 후 배치 정규화 통계를 계산하는 최종 패스를 수행한다.
표준 SGD 및 Fast Geometric Ensembling(FGE)와 비교하여 테스트 정확도와 학습 손실 측면에서 SWA를 평가한다.
SWA가 SGD보다 더 넓고(flat)한 최적점을 찾고 단일 모델로 FGE를 근사한다는 것을 보여준다.

실험 결과

연구 질문

RQ1사이클 또는 상수 학습률 궤적을 따라 SGD 이터레이션을 평균화하는 것이 표준 SGD보다 일반화에 더 좋은가?
RQ2SWA 해가 SGD가 찾은 것보다 더 평평하고 넓은가? 일반화와의 관계는?
RQ3SWA가 단일 모델을 사용하면서 FGE 앙상블의 성능을 맞추거나 능가할 수 있는가?
RQ4SWA가 다양한 아키텍처 및 데이터셋(CIFAR-10/100, ImageNet)에서 어떻게 작동하는가?

주요 결과

사이클 또는 상수 학습률을 사용하는 SWA는 아키텍처와 데이터셋 전반에 걸쳐 기존 SGD보다 테스트 정확도를 향상시킨다.
SWA는 SGD 최적점보다 더 넓고(flat)하며, 평균화는 고성능 가중치 집합 내에서 더 중심 영역으로 이동하게 한다.
SWA는 단일 모델로 Fast Geometric Ensembling(FGE)을 근사할 수 있어, 여러 모델을 학습하지 않고도 비슷한 예측 다양성을 제공한다.
ImageNet에서 SWA는 ResNet-50, ResNet-152, DenseNet-161에 걸쳐 사전 학습된 모델 대비 테스트 정확도를 약 0.6–0.9 포인트 향상시킨다.
CIFAR-100에서 SWA는 SGD 대비 약 0.75–1.5 포인트의 개선을 달성하며, CIFAR-10 및 다양한 아키텍처에서도 이득을 보인다.
SWA는 계산 오버헤드가 거의 없고 구현이 쉽고, 공개 코드가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.