[论文解读] Whiteout: Gaussian Adaptive Regularization Noise in Deep Neural Networks
本文提出Whiteout,一种新颖的高斯自适应噪声注入技术,可在不依赖 $l_2$ 正则化的情况下,为深度神经网络引入广泛范围的 $l_\nu$ 稀疏性正则化($\nu \to (0,2)$)。该方法建立了扰动损失向理想损失收敛的理论基础,相较于Dropout和Shakeout,展现出更优的鲁棒性与泛化性能,尤其在小样本数据集上表现突出。
Noise injection (NI) is an efficient technique to mitigate over-fitting in neural networks (NNs). The Bernoulli NI procedure as implemented in dropout and shakeout has connections with $l_1$ and $l_2$ regularization for the NN model parameters. We propose whiteout, a family NI regularization techniques (NIRT) through injecting adaptive Gaussian noises during the training of NNs. Whiteout is the first NIRT than imposes a broad range of the $l_{\gamma}$ sparsity regularization $(\gamma\in(0,2))$ without having to involving the $l_2$ regularization. Whiteout can also be extended to offer regularizations similar to the adaptive lasso and group lasso. We establish the regularization effect of whiteout in the framework of generalized linear models with closed-form penalty terms and show that whiteout stabilizes the training of NNs with decreased sensitivity to small perturbations in the input. We establish that the noise-perturbed empirical loss function (pelf) with whiteout converges almost surely to the ideal loss function (ilf), and the minimizer of the pelf is consistent for the minimizer of the ilf. We derive the tail bound on the pelf to establish the practical feasibility in its minimization. The superiority of whiteout over the Bernoulli NIRTs, dropout and shakeout, in learning NNs with relatively small-sized training sets and non-inferiority in large-sized training sets is demonstrated in both simulated and real-life data sets. This work represents the first in-depth theoretical, methodological, and practical examination of the regularization effects of both additive and multiplicative Gaussian NI in deep NNs.
研究动机与目标
- 开发一种噪声注入正则化技术,实现在 $\nu \in (0,2)$ 范围内的 $l_\nu$ 稀疏性正则化,且无需依赖 $l_2$ 正则化。
- 建立添加与乘性高斯噪声在深度神经网络中正则化效应的理论基础。
- 通过训练期间的噪声诱导稳定化,实现模型对输入扰动的鲁棒性提升并降低敏感性。
- 证明噪声扰动的经验损失函数(pelf)以几乎必然的方式收敛至理想损失函数(ilf),确保优化的一致性。
- 在模拟与真实数据集上,特别是低数据量场景下,对Whiteout的性能进行实证评估。
提出的方法
- 提出Whiteout作为一类基于训练过程中自适应高斯噪声的噪声注入正则化技术(NIRT)家族。
- 引入加性和乘性高斯噪声注入,其噪声方差根据网络参数自适应调整,以诱导 $l_\nu$ 正则化。
- 在广义线性模型框架下推导出闭式惩罚项,将噪声方差与有效正则化强度关联。
- 在较弱正则性条件下,建立扰动经验损失函数(pelf)几乎必然收敛至理想损失函数(ilf)的理论。
- 推导pelf的尾部界限,以确保训练过程中最小化噪声损失的实际可行性。
- 通过适当的噪声方差调度策略,将Whiteout扩展以模拟自适应套索(adaptive lasso)与组套索(group lasso)正则化。
实验结果
研究问题
- RQ1自适应高斯噪声注入是否可在不依赖 $l_2$ 正则化的情况下,为深度神经网络实现 $\nu \in (0,2)$ 范围内的 $l_\nu$ 稀疏性正则化?
- RQ2噪声扰动的经验损失函数(pelf)是否以几乎必然的方式收敛至理想损失函数(ilf),且pelf的最小化器是否与ilf的最小化器一致?
- RQ3在小规模训练数据集上,Whiteout与基于伯努利分布的NIRT方法(如Dropout和Shakeout)相比,其泛化性能如何?
- RQ4Whiteout在多大程度上实现了训练过程的稳定化并降低了对输入扰动的敏感性?
- RQ5Whiteout是否可扩展以模拟如自适应套索与组套索等结构化正则化模式?
主要发现
- Whiteout成功在不依赖 $l_2$ 正则化的情况下,实现了 $\nu \in (0,2)$ 范围内的 $l_\nu$ 稀疏性正则化,为深度网络引入了更广泛的归纳偏置。
- 采用Whiteout的扰动经验损失函数(pelf)以几乎必然的方式收敛至理想损失函数(ilf),确保了优化的一致性。
- pelf的最小化器与ilf的最小化器一致,为该方法的收敛行为提供了理论依据。
- 在相对较小的训练集上,Whiteout在学习深度神经网络方面表现优于Dropout与Shakeout。
- 在大规模训练集上,Whiteout与现有基于伯努利分布的NIRT方法相比,性能不劣,表明其具备强大的泛化稳定性。
- Whiteout降低了模型对微小输入扰动的敏感性,表明其在训练过程中具备更强的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。