QUICK REVIEW

[논문 리뷰] Whiteout: Gaussian Adaptive Regularization Noise in Deep Neural Networks

Yinan Li, Ruoyi Xu|arXiv (Cornell University)|2016. 12. 05.

Gaussian Processes and Bayesian Inference참고 문헌 8인용 수 5

한 줄 요약

이 논문은 $l_\nu$ 희소성 정규화($\nu \to (0,2)$)를 $l_2$ 정규화에 의존하지 않고 깊이 있는 신경망에 광범위하게 적용할 수 있는 새로운 가우시안 적응형 노이즈 주입 기법인 Whiteout을 제안한다. 노이즈가 가미된 손실 함수가 이상적 손실 함수로의 이론적 수렴성을 확립하고, 드롭아웃 및 셰이크아웃과 비교해 더 뛰어난 강건성과 일반화 성능을 보이며, 특히 소규모 데이터셋에서 두드러진 성능 향상을 보인다.

ABSTRACT

Noise injection (NI) is an efficient technique to mitigate over-fitting in neural networks (NNs). The Bernoulli NI procedure as implemented in dropout and shakeout has connections with $l_1$ and $l_2$ regularization for the NN model parameters. We propose whiteout, a family NI regularization techniques (NIRT) through injecting adaptive Gaussian noises during the training of NNs. Whiteout is the first NIRT than imposes a broad range of the $l_{\gamma}$ sparsity regularization $(\gamma\in(0,2))$ without having to involving the $l_2$ regularization. Whiteout can also be extended to offer regularizations similar to the adaptive lasso and group lasso. We establish the regularization effect of whiteout in the framework of generalized linear models with closed-form penalty terms and show that whiteout stabilizes the training of NNs with decreased sensitivity to small perturbations in the input. We establish that the noise-perturbed empirical loss function (pelf) with whiteout converges almost surely to the ideal loss function (ilf), and the minimizer of the pelf is consistent for the minimizer of the ilf. We derive the tail bound on the pelf to establish the practical feasibility in its minimization. The superiority of whiteout over the Bernoulli NIRTs, dropout and shakeout, in learning NNs with relatively small-sized training sets and non-inferiority in large-sized training sets is demonstrated in both simulated and real-life data sets. This work represents the first in-depth theoretical, methodological, and practical examination of the regularization effects of both additive and multiplicative Gaussian NI in deep NNs.

연구 동기 및 목표

깊이 있는 신경망에서 $l_2$ 정규화를 필요로 하지 않고 $\nu \in (0,2)$인 $l_\nu$ 희소성 정규화를 달성하는 노이즈 주입 정규화 기법을 개발하는 것.
깊이 있는 신경망에서 덧셈 및 곱셈 가우시안 노이즈의 정규화 효과에 대한 이론적 기반을 확립하는 것.
학습 중 노이즈에 의한 안정화를 통해 입력 변형에 대한 민감도 감소를 통해 강건성을 향상시키는 것.
노이즈가 가미된 경험적 손실 함수(pelf)가 거의 확실히 이상적 손실 함수(ilf)로 수렴함을 보장하여 일관된 최적화를 확보하는 것.
모의 및 실세계 데이터셋에서 Whiteout의 성능을 실증적으로 평가하며, 특히 데이터가 적은 환경에서의 성능을 중심으로 분석하는 것.

제안 방법

신경망 학습 중 적응형 가우시안 노이즈를 사용하는 노이즈 주입 정규화 기법(NIRT)의 일종인 Whiteout을 제안한다.
노이즈 분산을 네트워크 파라미터에 기반해 적응적으로 조정함으로써 덧셈 및 곱셈 가우시안 노이즈 주입을 도입하고, 이로써 $l_\nu$ 정규화를 유도한다.
일반화선형모형 프레임워크 내에서 폐쇄형 형태의 펜alty 항을 유도하며, 노이즈 분산과 효과적 정규화 강도 사이의 관계를 규명한다.
약한 규칙성 조건 하에서 노이즈가 가미된 경험적 손실 함수(pelf)가 이상적 손실 함수(ilf)로 거의 확실히 수렴함을 증명한다.
학습 중 노이즈가 가미된 손실을 최소화하는 데 실용적인 가능성을 보장하기 위해 pelf에 대한 尾尾(꼬리) 경계를 유도한다.
적절한 노이즈 분산 스케줄링을 통해 Whiteout을 적응형 라소 및 그룹 라소 정규화를 모방하는 데로 확장한다.

실험 결과

연구 질문

RQ1적응형 가우시안 노이즈 주입이 깊이 있는 신경망에서 $l_2$ 정규화에 의존하지 않고 $\nu \in (0,2)$ 범위의 $l_\nu$ 희소성 정규화를 유도할 수 있는가?
RQ2노이즈가 가미된 경험적 손실 함수(pelf)가 거의 확실히 이상적 손실 함수(ilf)로 수렴하는가? 그리고 pelf의 최소화자는 ilf의 최소화자와 일관된가?
RQ3Whiteout은 드롭아웃 및 셰이크아웃과 같은 베르누이 기반 NIRT와 비교해 소규모 학습 데이터셋에서 일반화 성능 면에서 어떻게 다른가?
RQ4Whiteout은 학습을 얼마나 잘 안정화시키고, 입력 변형에 대한 민감도를 얼마나 감소시키는가?
RQ5Whiteout은 적절한 노이즈 분산 스케줄링을 통해 적응형 라소 및 그룹 라소 정규화와 같은 구조적 정규화 패턴을 모방할 수 있는가?

주요 결과

Whiteout은 $l_2$ 정규화를 요구하지 않고도 $\nu \in (0,2)$ 범위에서 $l_\nu$ 희소성 정규화를 성공적으로 유도하여 깊이 있는 네트워크에 더 넓은 인도크티브 바이어스를 제공한다.
Whiteout을 적용한 노이즈가 가미된 경험적 손실 함수(pelf)는 이상적 손실 함수(ilf)로 거의 확실히 수렴함을 보여주어 일관된 최적화를 보장한다.
pelf의 최소화자는 ilf의 최소화자와 일관되며, 이는 방법의 수렴 행동에 대한 이론적 기반을 제공한다.
소규모 학습 데이터셋에서 Whiteout은 드롭아웃 및 셰이크아웃보다 더 뛰어난 성능을 보이며, 깊이 있는 신경망 학습에 효과적이다.
대규모 학습 데이터셋에서도 Whiteout은 기존의 베르누이 기반 NIRT와 비열등한 성능을 보이며, 강력한 일반화 안정성을 입증한다.
Whiteout은 소규모 입력 변형에 대한 모델 민감도를 감소시켜 학습 중 강건성이 향상됨을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.