QUICK REVIEW

[논문 리뷰] Snapshot Ensembles: Train 1, get M for free

Gao Huang, Yixuan Li|arXiv (Cornell University)|2017. 04. 01.

Advanced Neural Network Applications인용 수 118

한 줄 요약

이 논문은 순환 코사인 학습률 일정으로 하나의 모델을 학습시켜 여러 개의 성능이 좋은 스냅샷을 얻고, 테스트 시 이들을 앙상블해 추가 학습 비용 없이 정확도를 향상시킨다.

ABSTRACT

Ensembles of neural networks are known to be much more robust and accurate than individual networks. However, training multiple deep networks for model averaging is computationally expensive. In this paper, we propose a method to obtain the seemingly contradictory goal of ensembling multiple neural networks at no additional training cost. We achieve this goal by training a single neural network, converging to several local minima along its optimization path and saving the model parameters. To obtain repeated rapid convergence, we leverage recent work on cyclic learning rate schedules. The resulting technique, which we refer to as Snapshot Ensembling, is simple, yet surprisingly effective. We show in a series of experiments that our approach is compatible with diverse network architectures and learning tasks. It consistently yields lower error rates than state-of-the-art single models at no additional training cost, and compares favorably with traditional network ensembles. On CIFAR-10 and CIFAR-100 our DenseNet Snapshot Ensembles obtain error rates of 3.4% and 17.4% respectively.

연구 동기 및 목표

고정밀 앙상블을 위한 학습 비용 감소를 동기화한다.
SGD의 지역 최저점 방문을 활용해 명시적 스냅샷을 생성한다.
순환 코사인 학습률 일정으로 다수의 모델 스냅샷을 생성하고 저장한다.
스냅샷 앙상블이 다양한 아키텍처와 데이터셋에서 추가 학습 시간 없이 성능을 향상시킴을 입증한다.
데이터 증강, 확률적 깊이, 배치 정규화와의 호환성을 보인다.

제안 방법

코사인 어닐링 스케줄을 사용해 M개의 학습률 주기 동안 단일 네트워크를 학습시킨다.
각 주기 말에 모델 매개변수의 스냅샷을 가져와 저장한다.
테스트 시 마지막 m개의 스냅샷을 평균해 앙상블 구성으로 사용한다.
주기 길이와 재시작 비율은 Loshchilov & Hutter (2016)의 cyclic learning-rate 함수로 제어한다.
표준 단일 모델 학습과 동일한 총 학습 시간으로 앙상블 이점을 얻되 추가 학습 비용은 없다.
ResNet, Wide-ResNet, DenseNet 아키텍처에서 CIFAR-10, CIFAR-100, SVHN, Tiny ImageNet, ImageNet를 평가한다.

실험 결과

연구 질문

RQ1단일 최적화 경로를 따라 발견된 다수의 지역 최적점으로부터 훈련 비용 증가 없이 앙상블을 형성할 수 있는가?
RQ2순환 코사인 학습률 스케줄이 앙상블에 적합한 다양하고 상호보완적인 스냅샷을 생성하는가?
RQ3주기 수 M과 재시작 규모가 데이터셋과 아키텍처 전반에서 앙상블 성능에 어떤 영향을 미치는가?
RQ4동일한 학습 예산 하에서 Snapshot Ensemble가 전통적 앙상블 및 암시적 앙상블 방법과 비교해 어떠한 성능 차이를 보이는가?

주요 결과

방법	CIFAR-10	CIFAR-100	SVHN	Tiny ImageNet
단일 모델	5.52	28.02	1.96	46.50
NoCycle 스냅샷 앙상블	5.49	26.97	1.78	43.69
단일주기 앙상블	6.66	24.54	1.74	42.60
스냅샷 앙상블 ( α0=0.1 )	5.73	25.55	1.63	40.54
스냅샷 앙상블 ( α0=0.2 )	5.32	24.19	1.66	39.40
Wide-ResNet-32 (단일 모델)	5.43	23.55	1.90	39.63
드롭아웃	4.68	22.82	1.81	36.58
NoCycle 스냅샷 앙상블	5.18	22.81	1.81	38.64
단일사이클 앙상블	5.95	21.38	1.65	35.53
스냅샷 앙상블 ( α0=0.1 )	4.41	21.26	1.64	35.45
스냅샷 앙상블 ( α0=0.2 )	4.73	21.56	1.51	32.90
DenseNet-40 (단일 모델)	5.24 ∗	24.42 ∗	1.77	39.09
드롭아웃	6.08	25.79	1.79 ∗	39.68
NoCycle 스냅샷 앙상블	5.20	24.63	1.80	38.51
단일사이클 앙상블	5.43	22.51	1.87	38.00
스냅샷 앙상블 ( α0=0.1 )	4.99	23.34	1.64	37.25
스냅샷 앙상블 ( α0=0.2 )	4.84	21.93	1.73	36.61
DenseNet-100 (단일 모델)	3.74 ∗	19.25 ∗	-	-
드롭아웃	3.65	18.77	-	-
NoCycle 스냅샷 앙상블	3.80	19.30	-	-
단일사이클 앙상블	4.52	18.38	-	-
스냅샷 앙상블 ( α0=0.1 )	3.57	18.12	-	-
스냅샷 앙상블 ( α0=0.2 )	3.44	17.41	-	-

스냅샷 앙상블은 동일 예산으로 학습된 기준선보다 지속적으로 오류를 감소시킨다.
CIFAR-10 및 CIFAR-100에서 DenseNet을 사용한 경우 특정 설정에서 각각 3.44%와 17.41%의 오류를 보고한다.
ImageNet(ResNet-50)에서 이주 사이클 스냅샷 앙상블은 23.33%로 단일 모델의 24.01% 대비 성능이 향상된다.
2~8주기의 앙상블은 단일 모델을 능가할 수 있으며, 매우 큰 앙상블 이후에는 수익이 감소한다.
NoCycle 변형은 역효과를 내며, 효과적인 다양화를 위한 순환 학습률 스케줄의 중요성을 강조한다.
이 방법은 최소한의 추가 학습 비용으로 정확도 향상을 얻고, 다른 정확도 개선 기법과의 호환성도 갖춘다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.