[论文解读] Noisy Natural Gradient as Variational Inference
本文提出噪声自然梯度作为贝叶斯神经网络的变分推断方法,表明优化过程中的自适应权重噪声可隐式地在变分后验上执行自然梯度,以最大化ELBO。该方法通过使用噪声版本的K-FAC和Adam,实现了全协方差、矩阵变量子高斯后验的高效训练,其预测方差与哈密顿蒙特卡洛(HMC)高度一致,并在主动学习和强化学习中提升了探索效率。
Variational Bayesian neural nets combine the flexibility of deep learning with Bayesian uncertainty estimation. Unfortunately, there is a tradeoff between cheap but simple variational families (e.g.~fully factorized) or expensive and complicated inference procedures. We show that natural gradient ascent with adaptive weight noise implicitly fits a variational posterior to maximize the evidence lower bound (ELBO). This insight allows us to train full-covariance, fully factorized, or matrix-variate Gaussian variational posteriors using noisy versions of natural gradient, Adam, and K-FAC, respectively, making it possible to scale up to modern-size ConvNets. On standard regression benchmarks, our noisy K-FAC algorithm makes better predictions and matches Hamiltonian Monte Carlo's predictive variances better than existing methods. Its improved uncertainty estimates lead to more efficient exploration in active learning, and intrinsic motivation for reinforcement learning.
研究动机与目标
- 将自然梯度优化与贝叶斯神经网络中的变分推断相连接。
- 解决变分后验近似中计算成本与表达能力之间的权衡。
- 开发可扩展、高效的全协方差和矩阵变量子高斯后验拟合方法,避免昂贵的推理过程。
- 通过改进不确定性估计,提升下游任务(如主动学习和基于内在动机的强化学习)的性能。
提出的方法
- 将优化过程中的自适应权重噪声重新解释为使用精确Fisher信息矩阵的变分后验上的自然梯度。
- 推导出一个统一的证据下界(ELBO),该ELBO将权重更新和Fisher矩阵估计统一为自然梯度步骤。
- 提出噪声K-FAC和噪声Adam,分别用于高效训练矩阵变量子高斯后验和完全分解的高斯后验。
- 使用Opper-Archambeau梯度估计器计算高斯分布的ELBO关于后验参数的梯度。
- 应用重参数化技巧和路径导数,实现变分后验的可微训练。
- 利用带相关权重噪声的Kronecker-分解曲率近似,实现对现代卷积神经网络的可扩展性。
实验结果
研究问题
- RQ1能否将具有自适应权重噪声的自然梯度优化解释为对贝叶斯神经网络后验的变分推断?
- RQ2如何在不使用昂贵推理过程的情况下高效训练全协方差和矩阵变量子高斯后验?
- RQ3噪声自然梯度方法能否在标准基准上匹配哈密顿蒙特卡洛的预测不确定性?
- RQ4改进的不确定性估计是否能提升主动学习和强化学习中的探索效率?
- RQ5能否通过注入噪声将标准优化算法(如Adam和K-FAC)适配为执行变分推断?
主要发现
- 噪声K-FAC算法在波士顿房价数据集上的预测方差与哈密顿蒙特卡洛的相关性更强,皮尔逊相关系数达到0.92。
- NNG-MVG和NNG-BlkTri在匹配HMC的预测方差方面优于其他方法,其中NNG-BlkTri因后验更具灵活性而表现略优。
- 在主动学习中,NNG-MVG_A的测试RMSE低于随机选择(NNG-MVG_R),且在大多数数据集上优于PBP_A和NNG-FFG_A。
- 在基于内在动机的强化学习中,将动力学网络的后验替换为NNG-MVG显著提升了三个连续控制任务中的探索效率。
- 高斯噪声基线在相同任务中无法学习,而使用NNG-MVG的VIME优于基线和原始VIME方法(后者使用Bayes-by-Backprop)。
- 该方法实现了使用类似K-FAC的曲率近似与相关噪声训练全协方差后验,具备GPU友好的可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。