QUICK REVIEW

[논문 리뷰] Improving Consistency-Based Semi-Supervised Learning with Weight Averaging.

Ben Athiwaratkun, Marc Finzi|arXiv (Cornell University)|2018. 06. 14.

Domain Adaptation and Few-Shot Learning참고 문헌 36인용 수 28

한 줄 요약

이 논문은 Stochastic Weight Averaging (SWA) 및 그 빠른 변종인 fast-SWA를 사용하여 SGD 경로를 따라 모델 가중치를 평균화함으로써 일致성 기반 준지도 학습의 성능을 향상시키는 것을 제안한다. 이는 더 평탄하고 일반화 능력이 뛰어난 최적화 해를 도출한다. 본 방법은 상태 기준 성능(SOTA)을 달성하였으며, 레이블이 4,000개 뿐인 CIFAR-10에서 95.0%의 정확도를 기록했고, CIFAR-10에서 STL로의 도메인 적응에서도 83%의 정확도를 달성하였다.

ABSTRACT

Recent advances in deep unsupervised learning have renewed interest in semi-supervised methods, which can learn from both labeled and unlabeled data. Presently the most successful approaches to semi-supervised learning are based on consistency regularization, whereby a model is trained to be robust to small perturbations of its inputs and parameters. We show that consistency regularization leads to flatter but narrower optima. We also show that the test error surface for these methods is approximately convex in regions of weight space traversed by SGD. Inspired by these observations, we propose to train consistency based semi-supervised models with stochastic weight averaging (SWA), a recent method which averages weights along the trajectory of SGD. We also develop fast-SWA, which further accelerates convergence by averaging multiple points within each cycle of a cyclical learning rate schedule. With fast-SWA we achieve the best known semi-supervised results on CIFAR-10 and CIFAR-100 over many different numbers of observed training labels. For example, we achieve 95.0% accuracy on CIFAR-10 with only 4000 labels, compared to the previous best result in the literature of 93.7%. We also improve the best known accuracy for domain adaptation from CIFAR-10 to STL from 80% to 83%. Finally, we show that with fast-SWA the simple $\Pi$ model becomes state-of-the-art for large labeled settings.

연구 동기 및 목표

일치성 기반 준지도 학습 방법의 일반화 능력과 내성 강도를 향상시키기 위해.
일치성 학습에서 날카롭고 좁은 국소 최적점 문제를 해결하기 위해, 가중치 평균화를 활용하여 더 평탄한 최적점을 찾기 위해.
순환 학습률 스케줄과 함께 fast-SWA를 적용하여 수렴 속도를 가속화하고 성능을 향상시키기 위해.
다양한 레이블 예산에서 CIFAR-10 및 CIFAR-100에서 준지도 학습의 새로운 최고 성능(SOTA)을 확립하기 위해.
fast-SWA가 단순한 Π-모델이 대량의 레이블 데이터를 가진 환경에서 경쟁력 있는 성능을 낼 수 있도록 하는지 검증하기 위해.

제안 방법

SGD 경로를 따라 모델 가중치를 평균화함으로써 더 평탄하고 일반화 능력이 뛰어난 최적점을 도출하기 위해 Stochastic Weight Averaging (SWA)를 적용한다.
순환 학습률 스케줄의 각 사이클 내에서 여러 가중치 포인트를 평균화함으로써 SWA의 수렴 속도를 가속화하는 fast-SWA를 도입한다.
입력 및 파라미터의 변형에 대해 모델이 강건해지도록 하는 일치성 정규화를 사용하여 기초 준지도 학습 프레임워크를 구성한다.
순환 학습률을 사용하여 SGD로 모델을 훈련하고, 각 사이클의 끝에서 fast-SWA를 통해 가중치를 주기적으로 평균화한다.
손실 표면 분석을 통해 SGD가 이동하는 영역에서 테스트 오차 표면이 약간의 볼록성을 띤다는 것을 보이며, 가중치 평균화의 타당성을 입증한다.
기본 준지도 학습 벤치마크인 CIFAR-10, CIFAR-100 및 CIFAR-10에서 STL로의 도메인 적응에 본 방법을 적용한다.

실험 결과

연구 질문

RQ1가중치 평균화는 일치성 기반 준지도 학습 모델의 일반화 능력을 향상시킬 수 있는가?
RQ2fast-SWA는 준지도 학습 환경에서 성능을 유지하거나 향상시키면서 수렴 속도를 가속화할 수 있는가?
RQ3일치성 정규화된 모델의 손실 표면은 가중치 공간에서 어떻게 행동하는가? 그리고 이는 SWA의 사용을 지지하는가?
RQ4fast-SWA는 대량의 레이블 데이터를 가진 준지도 학습 환경에서 Π 모델의 경쟁력을 높일 수 있는가?
RQ5fast-SWA를 사용하여 최소한의 레이블 데이터로 표준 벤치마크인 CIFAR-10 및 CIFAR-100에서 어떤 성능 향상이 달성될 수 있는가?

주요 결과

fast-SWA는 레이블이 4,000개 뿐인 CIFAR-10에서 95.0%의 정확도를 기록하여 이전 SOTA인 93.7%를 초월하였다.
이 방법은 CIFAR-10에서 STL로의 도메인 적응 정확도를 80%에서 83%로 향상시켰다.
일치성 정규화된 모델의 테스트 오차 표면은 SGD가 이동하는 영역에서 약간의 볼록성을 띤다. 이는 가중치 평균화의 타당성을 뒷받침한다.
일치성 정규화는 더 평탄한 최적점을 유도하지만, 이는 좁은 국소 최적점으로 이어지며, 이는 SWA 및 fast-SWA에 의해 완화된다.
fast-SWA를 적용함으로써 단순한 Π 모델이 대량의 레이블 데이터를 가진 준지도 학습 환경에서 최고 성능(SOTA)을 달성하게 되었다.
fast-SWA는 표준 훈련 및 기준 SWA 대비 더 빠른 수렴 속도와 더 나은 일반화 능력을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.