QUICK REVIEW

[논문 리뷰] Whiteout: Gaussian Adaptive Noise Regularization in FeedForward Neural Networks

Yinan Li, Fang Liu|arXiv (Cornell University)|2016. 12. 05.

Gaussian Processes and Bayesian Inference인용 수 10

한 줄 요약

이 논문은 피드포워드 신경망을 위한 새로운 가우시안 적응형 노이즈 정규화 기법인 Whiteout을 소개한다. 이 기법은 $l_2$ 정규화에 의존하지 않고 $l_\nu$ 희박성 정규화 ($ u 0,2$)의 광범위한 범위를 유도한다. 노이즈가 가해진 경험 손실이 이상적 손실로 수렴하는 이론적 수렴성을 확립하고, 드롭아웃 및 셰이크아웃과 비교해 더 뛰어난 강건성과 일반화 성능을 보이며, 특히 소규모 데이터셋에서 두드러진다.

ABSTRACT

Noise injection (NI) is an efficient technique to mitigate over-fitting in neural networks (NNs). The Bernoulli NI procedure as implemented in dropout and shakeout has connections with $l_1$ and $l_2$ regularization for the NN model parameters. We propose whiteout, a family NI regularization techniques (NIRT) through injecting adaptive Gaussian noises during the training of NNs. Whiteout is the first NIRT than imposes a broad range of the $l_{\gamma}$ sparsity regularization $(\gamma\in(0,2))$ without having to involving the $l_2$ regularization. Whiteout can also be extended to offer regularizations similar to the adaptive lasso and group lasso. We establish the regularization effect of whiteout in the framework of generalized linear models with closed-form penalty terms and show that whiteout stabilizes the training of NNs with decreased sensitivity to small perturbations in the input. We establish that the noise-perturbed empirical loss function (pelf) with whiteout converges almost surely to the ideal loss function (ilf), and the minimizer of the pelf is consistent for the minimizer of the ilf. We derive the tail bound on the pelf to establish the practical feasibility in its minimization. The superiority of whiteout over the Bernoulli NIRTs, dropout and shakeout, in learning NNs with relatively small-sized training sets and non-inferiority in large-sized training sets is demonstrated in both simulated and real-life data sets. This work represents the first in-depth theoretical, methodological, and practical examination of the regularization effects of both additive and multiplicative Gaussian NI in deep NNs.

연구 동기 및 목표

표준 $l_2$ 정규화를 요구하지 않고도 $l_\nu$ 희박성 정규화 ($\nu \in (0,2)$)를 유연하게 달성할 수 있는 노이즈 주입 정규화 기법을 개발하는 것.
특히 노이즈 주입에 의한 경험 손실의 수렴성과 일致성 측면에서 깊이 있는 신경망에 대한 가우시안 노이즈 주입의 이론적 기반을 확립하는 것.
적응형 노이즈 주입을 통해 모델의 안정성을 향상시키고 입력 노이즈에 대한 민감도를 감소시키는 것.
드롭아웃 및 셰이크아웃과 같은 기존의 베르누이 기반 노이즈 주입 기법들과의 방법론적 및 실증적 비교를 제공하는 것.
적응형 라소 및 그룹 라소와 유사한 정규화 형태를 지원하기 위해 프레임워크를 확장하는 것.

제안 방법

신경망 학습 중 적응형 가우시안 노이즈를 주입하는 노이즈 주입 정규화 기법(NIRT)의 가족인 Whiteout을 제안한다.
일반선형모형 프레임워크 내에서 폐쇄형 형태의 펜alty 항을 유도하며, 노이즈 분산과 정규화 효과 간의 관계를 규명한다.
약한 조건 하에서 노이즈가 가해진 경험 손실 함수(pelf)가 거의 확실히 이상적 손실 함수(ilf)로 수렴함을 증명한다.
pelf의 최소화자가 ilf의 최소화자와 일致함을 증명하여 최적화의 신뢰성을 보장한다.
노이즈가 가해진 손실을 최소화하는 데 실용적 타당성을 보장하기 위해 pelf에 대한 尾尾 bound를 유도한다.
적절한 노이즈 분산 스케줄링을 통해 적응형 라소 및 그룹 라소와 유사한 정규화 형태를 지원하도록 방법을 확장한다.

실험 결과

연구 질문

RQ1적응형 가우시안 노이즈 주입이 $l_\nu$ 희박성 정규화 ($\nu \in (0,2)$)를 $l_2$ 정규화 없이 유도할 수 있는가?
RQ2Whiteout 하에서 노이즈가 가해진 경험 손실 함수가 거의 확실히 이상적 손실 함수로 수렴하는가? 그리고 그 최소화자는 일치하는가?
RQ3소규모 학습 데이터셋에서 Whiteout이 드롭아웃 및 셰이크아웃과 같은 베르누이 기반 NIRT 기법들에 비해 일반화 성능에서 어떻게 비교되는가?
RQ4기존 방법들에 비해 Whiteout은 학습을 안정화하고 입력 노이즈에 대한 민감도를 감소시키는가?
RQ5Whiteout은 얼마나 넓은 범위로 적응형 라소 및 그룹 라소 정규화 효과를 모방할 수 있는가?

주요 결과

Whiteout은 $l_2$ 정규화 없이도 $\nu \in (0,2)$ 범위에서 $l_\nu$ 희박성 정규화를 달성하여 표준 드롭아웃 또는 셰이크아웃보다 더 넓은 정규화 범위를 제공한다.
Whiteout 하에서 노이즈가 가해진 경험 손실 함수(pelf)가 거의 확실히 이상적 손실 함수(ilf)로 수렴하여 이론적 강건성을 보장한다.
pelf의 최소화자가 ilf의 최소화자와 일치하므로 방법의 최적화 신뢰성이 검증된다.
작은 크기의 학습 데이터셋에서 Whiteout은 드롭아웃 및 셰이크아웃보다 더 뛰어난 성능을 보인다.
크기가 큰 학습 데이터셋에서는 Whiteout이 기존 방법들과 비열등한 성능을 보이며, 강력한 일반화 안정성을 나타낸다.
작은 입력 노이즈에 대한 민감도를 감소시켜 모델의 강건성을 향상시키고 학습 안정성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.