QUICK REVIEW

[논문 리뷰] SmoothOut: Smoothing Out Sharp Minima for Generalization in Large-Batch Deep Learning

Wei Wen, Yandan Wang|arXiv (Cornell University)|2018. 05. 21.

Stochastic Gradient Optimization Techniques인용 수 4

한 줄 요약

SmoothOut은 매개변수 공간에서 다수의 DNN 복제본을 흔들어 평균화함으로써 날카로운 최소값을 제거하고, 일반화 갭을 해소한다. 최소한의 오버헤드를 가지는 확률적 변종을 도입하여 편향 없는 근사가 가능함을 증명하고, 추가 에포크 없이도 최신 기술 수준의 일반화 성능을 달성한다.

ABSTRACT

In distributed deep learning, a large batch size in Stochastic Gradient Descent is required to fully exploit the computing power in distributed systems. However, generalization gap (accuracy loss) was observed because large-batch training converges to sharp minima which have bad generalization [1][2]. This contradiction hinders the scalability of distributed deep learning. We propose SmoothOut to smooth out sharp minima in Deep Neural Networks (DNNs) and thereby close generalization gap. SmoothOut perturbs multiple copies of the DNN in the parameter space and averages these copies. We prove that SmoothOut can eliminate sharp minima. Perturbing and training multiple DNN copies is inefficient, we propose a stochastic version of SmoothOut which only introduces overhead of noise injection and denoising per iteration. We prove that the Stochastic SmoothOut is an unbiased approximation of the original SmoothOut. In experiments on a variety of DNNs and datasets, SmoothOut consistently closes generalization gap in large-batch training within the same epochs. Moreover, SmoothOut can guide small-batch training to flatter minima and improve generalization. Our source code is in this https URL

연구 동기 및 목표

대용량 배치 확률적 경사하강법에서 일반화 성능이 떨어지는 날카로운 최소값으로 수렴하는 현상의 일반화 갭을 해소한다.
부드럽게 하기 위해 다수의 DNN 복제본을 훈련하는 데 드는 비효율성을 해결하기 위해 최소한의 오버헤드를 가지는 확률적 변종을 제안한다.
날카로운 최소값을 제거하면서도 훈련 효율성을 유지하는 이론적으로 탄탄한 방법을 제공한다.
대용량 배치 및 소용량 배치 훈련 모두가 더 평탄한 최소값으로 수렴하도록 하여 일반화 성능을 향상시킨다.

제안 방법

SmoothOut은 랜덤 노이즈를 사용하여 매개변수 공간에서 다수의 DNN 복제본을 흔들어 손실 표면을 탐색한다.
이러한 흔들린 DNN 복제본의 출력을 평균화하여 날카로운 최소값을 억제하는 부드러운 손실 표면을 형성한다.
SmoothOut의 확률적 변종은 각 훈련 반복마다 노이즈를 주입하고 디노이징을 수행하여 계산 비용을 줄인다.
이 방법은 원본 SmoothOut에 대한 편향 없는 근사임을 증명하였고, 이론적 보장을 유지한다.
모델 매개변수에 직접 작용하므로 표준 딥 러닝 프레임워크와 호환된다.
노이즈 주입은 순방향 전파 중에 적용되며, 평균화는 흔들린 모델의 다중 순방향 전파 결과에 대해 수행된다.

실험 결과

연구 질문

RQ1매개변수 공간에서의 흔들림과 평균화가 딥 네트워크의 날카로운 최소값을 효과적으로 제거할 수 있는가?
RQ2SmoothOut의 확률적 변종은 원본 방법의 이론적 성질을 유지하면서도 계산 비용을 줄일 수 있는가?
RQ3SmoothOut은 훈련 시간을 늘리지 않고도 대용량 배치 훈련의 일반화 갭을 메울 수 있는가?
RQ4SmoothOut은 더 평탄한 최소값으로 수렴하도록 최적화를 이끌어내어 소용량 배치 훈련의 일반화 성능을 향상시킬 수 있는가?
RQ5기존의 대용량 배치 훈련 기법과 비교해 SmoothOut은 테스트 정확도와 수렴 안정성 측면에서 어떻게 성능을 내는가?

주요 결과

SmoothOut은 다양한 DNN 아키텍처와 데이터셋에서 대용량 배치 훈련의 일반화 갭을 일관되게 해소한다.
확률적 변종는 전체 버전과 유사한 성능을 달성하면서도 크게 감소된 계산 오버헤드를 보인다.
SmoothOut은 동일한 에포크 수 내에서 대용량 배치 훈련이 소용량 배치 훈련의 일반화 성능을 따라잡거나 초월할 수 있도록 한다.
이 방법은 더 평탄한 최소값으로 수렴하도록 최적화를 이끌어내어 소용량 배치 훈련의 일반화 성능을 향상시킨다.
SmoothOut은 원본 방법에 대한 편향 없는 근사임이 증명되어 이론적 일관성을 유지한다.
이 방법은 다양한 데이터셋과 DNN 모델에서 효과적이며, 넓은 적용 가능성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.