QUICK REVIEW

[논문 리뷰] SmoothOut: Smoothing Out Sharp Minima to Improve Generalization in Deep Learning

Wei Wen, Yandan Wang|arXiv (Cornell University)|2018. 05. 21.

Stochastic Gradient Optimization Techniques참고 문헌 7인용 수 28

한 줄 요약

SmoothOut은 균일한 가중치 펌터베이션을 통해 날카로운 최소값을 부드럽게 함으로써 딥러닝의 일반화 성능을 향상시킨다. 이는 가중치 변동에 대한 민감도를 감소시키며, 이론적으로 평탄한 최소값이 펌터베이션 하에서 더 낮은 기대 손실을 유도함을 입증한다. 실험 결과는 CIFAR-100과 ResNet-44에서 소규모 및 대규모 배치 학습 환경 모두에서 더 높은 정확도와 강건성을 보여준다.

ABSTRACT

In Deep Learning, Stochastic Gradient Descent (SGD) is usually selected as a training method because of its efficiency; however, recently, a problem in SGD gains research interest: sharp minima in Deep Neural Networks (DNNs) have poor generalization; especially, large-batch SGD tends to converge to sharp minima. It becomes an open question whether escaping sharp minima can improve the generalization. To answer this question, we propose SmoothOut framework to smooth out sharp minima in DNNs and thereby improve generalization. In a nutshell, SmoothOut perturbs multiple copies of the DNN by noise injection and averages these copies. Injecting noises to SGD is widely used in the literature, but SmoothOut differs in lots of ways: (1) a de-noising process is applied before parameter updating; (2) noise strength is adapted to filter norm; (3) an alternative interpretation on the advantage of noise injection, from the perspective of sharpness and generalization; (4) usage of uniform noise instead of Gaussian noise. We prove that SmoothOut can eliminate sharp minima. Training multiple DNN copies is inefficient, we further propose an unbiased stochastic SmoothOut which only introduces the overhead of noise injecting and de-noising per batch. An adaptive variant of SmoothOut, AdaSmoothOut, is also proposed to improve generalization. In a variety of experiments, SmoothOut and AdaSmoothOut consistently improve generalization in both small-batch and large-batch training on the top of state-of-the-art solutions.

연구 동기 및 목표

손실 곡면에서 날카로운 최소값으로 인한 딥 네트워크의 열악한 일반화 성능을 해결하기 위해.
평탄한 최소값과 날카로운 최소값 간의 가중치 펌터베이션과 기대 손실 간의 관계를 체계화하기 위해.
균일한 펌터베이션을 통해 날카로운 최소값을 부드럽게 하여 일반화 성능을 향상시키는 방법을 개발하기 위해.
이론적으로도 실험적으로도 평탄한 최소값이 펌터베이션 하에서 더 낮은 기대 손실을 유도함을 입증하기 위해.

제안 방법

가중치 중심에 위치한 상자 영역 내에서 균일한 펌터베이션 분포를 정의하고, 반경 $ a $ 를 통해 기대 손실 $ \bar{C}(\bm{w}) $ 를 계산한다.
대칭적인 평탄한 최소값이 $ \nabla\bar{C}(\bm{w}_f) = \bm{0} $ 를 만족함을 증명하여, 펌터베이션 하에서의 안정성을 나타낸다.
이론적 분석을 통해 날카로운 최소값의 경우, 펌터베이션 영역 내에서의 최소 기대 손실이 그 영역 내 최대 손실을 초과함을 보여준다.
부피 비율을 이용해 기대 손실의 범위를 유도하며, 고차원에서 $ \min_{\mathcal{D}(\bm{w}_s,\varepsilon)} \bar{C}(\bm{w}) > \max_{\mathcal{D}(\bm{w}_s,\varepsilon)} C(\bm{w}) $ 를 만족함을 보여준다.
고차원에서의 측도 집중 현상을 활용하여, 높은 유도에서 펌터베이션 부피가 날카로운 최소값의 안정성을 점점 감소시킴을 설명한다.
실험적 검증은 Adam 및 SGD 최적화기와 함께 소규모 및 대규모 배치 설정에서 CIFAR-100과 ResNet-44를 사용하여 수행된다.

실험 결과

연구 질문

RQ1균일한 가중치 펌터베이션은 딥러닝에서 날카로운 최소값에 대한 민감도를 효과적으로 감소시키는가?
RQ2고차원 가중치 공간에서 기대 손실의 이론적 범위는 평탄한 최소값과 날카로운 최소값을 구분하는 데 유용한가?
RQ3균일한 펌터베이션 하에서 평탄한 최소값의 기대 손실은 날카로운 최소값의 기대 손실보다 어떻게 다른가?
RQ4SmoothOut은 다양한 배치 크기와 데이터셋에서 일반화 성능을 얼마나 향상시키는가?
RQ5대칭성과 차원 수는 펌터베이션 하에서 최소값의 안정성에 어떤 역할을 하는가?

주요 결과

이론적 분석은 대칭적 펌터베이션 하에서 평탄한 최소값이 $ \nabla\bar{C}(\bm{w}_f) = \bm{0} $ 를 만족함을 확인하며, 이는 안정성을 나타낸다.
고차원 공간에서 날카로운 최소값 주변의 펌터베이션 영역 내에서의 최소 기대 손실이 그 영역 내 최대 손실을 초과하며, 이는 '날카로운 제약 조건'을 만족한다.
큰 $ m $ 에 대해 $ \min_{\mathcal{D}(\bm{w}_s,\varepsilon)} \bar{C}(\bm{w}) \to C^{(s)}_{\varepsilon'} $ 로 수렴함을 보여, 날카로운 최소값이 펌터베이션 하에서 점점 더 불안정해짐을 나타낸다.
CIFAR-100의 $ C_3 $ 네트워크에서의 실험 결과, SmoothOut은 노이즈 강도가 다양할 때에도 정확도와 손실 안정성을 향상시킴을 보였다.
ResNet-44에서 SmoothOut은 소규모 및 대규모 배치 학습 모두에서 뛰어난 성능을 유지하며, 배치 크기 영향에 대한 강건성을 입증했다.
시각화 결과는 SmoothOut이 소규모 및 대규모 배치 학습 환경 모두에서 날카로움을 효과적으로 감소시킴을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.