[论文解读] Variational Dropout and the Local Reparameterization Trick
本文提出了一种局部重参数化技巧,可降低贝叶斯神经网络中随机梯度变分推断的方差,从而实现高效、可并行训练,并显著加快收敛速度。该方法通过学习自适应的丢弃率,对高斯丢弃进行泛化,实现了最先进性能,训练速度最高提升200倍,且方差低于标准基线方法。
We investigate a local reparameterizaton technique for greatly reducing the variance of stochastic gradients for variational Bayesian inference (SGVB) of a posterior over model parameters, while retaining parallelizability. This local reparameterization translates uncertainty about global parameters into local noise that is independent across datapoints in the minibatch. Such parameterizations can be trivially parallelized and have variance that is inversely proportional to the minibatch size, generally leading to much faster convergence. Additionally, we explore a connection with dropout: Gaussian dropout objectives correspond to SGVB with local reparameterization, a scale-invariant prior and proportionally fixed posterior variance. Our method allows inference of more flexibly parameterized posteriors; specifically, we propose variational dropout, a generalization of Gaussian dropout where the dropout rates are learned, often leading to better models. The method is demonstrated through several experiments.
研究动机与目标
- 解决贝叶斯神经网络中随机梯度变分推断(SGVB)的高方差问题,该问题阻碍了高效优化。
- 通过将全局参数不确定性重参数化为每个数据点的局部噪声,提升变分推断的效率与可扩展性。
- 通过学习最优丢弃率而非固定它们,将高斯丢弃泛化为更灵活的变分推断方法,实现更自适应的正则化。
- 证明所提方法在收敛速度和泛化性能方面优于标准丢弃和基线变分推断。
提出的方法
- 引入一种局部重参数化技巧,将全局模型权重的不确定性转化为小批量中每个数据点的独立局部噪声。
- 利用重参数化技巧,推导出一种方差与小批量大小成反比的随机梯度估计器,从而实现高效且可并行化的优化。
- 将变分丢弃形式化为高斯丢弃的推广,其中丢弃率是权重后验分布的可学习参数。
- 将局部重参数化应用于变分下界(ELBO),通过每个数据点特有的随机变量实现对噪声的反向传播。
- 采用尺度不变先验和固定的后验方差,使高斯丢弃成为所提框架的一个特例。
- 通过每个权重在每个数据点仅使用一个随机样本的实现方式,与标准重参数化相比,大幅减少了随机变量的数量。
实验结果
研究问题
- RQ1局部重参数化能否降低神经网络变分贝叶斯推断中随机梯度的方差,从而实现更快收敛?
- RQ2与标准重参数化和基线丢弃相比,所提方法在训练速度和测试准确率方面表现如何?
- RQ3具有学习到的丢弃率的变分丢弃能否在泛化性能上超越固定率丢弃和高斯丢弃?
- RQ4局部重参数化技巧对小批量训练中的计算效率和并行化有何影响?
- RQ5该方法在不同网络架构和数据集规模下是否保持或提升性能?
主要发现
- 局部重参数化估计器的方差与 $1/M$ 成比例,其中 $M$ 为小批量大小,其梯度方差显著低于标准估计器。
- 该方法使训练速度提升200倍:在现代GPU上,标准SGVB每轮需1635秒,而使用局部重参数化技巧仅需7.4秒/轮。
- 采用自适应丢弃率的变分丢弃优于标准丢弃和非自适应高斯丢弃,尤其在小型网络中,后者常导致欠拟合。
- 在MNIST和CIFAR-10数据集上,自适应变分丢弃方法的测试误差均低于所有基线,当KL散度项按3倍因子缩小后性能最佳。
- 局部重参数化方法的随机梯度估计器方差最低,且在整个训练过程中保持稳定,优于按每个数据点或每个小批量采样权重的估计器。
- 该方法泛化了高斯丢弃,并为丢弃提供了一种基于局部噪声的原理性贝叶斯解释,即变分推断。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。