[论文解读] Probabilistic Backpropagation for Scalable Learning of Bayesian Neural Networks
本文提出概率反向传播(PBP),一种可扩展的贝叶斯神经网络训练方法,该方法将反向传播扩展至前向和反向传播概率分布,以学习网络权重的后验近似。PBP在真实世界数据集上显著快于现有的贝叶斯方法(包括HMC和EP),同时实现了最先进的预测性能和校准的不确定性估计。
Large multilayer neural networks trained with backpropagation have recently achieved state-of-the-art results in a wide range of problems. However, using backprop for neural net learning still has some disadvantages, e.g., having to tune a large number of hyperparameters to the data, lack of calibrated probabilistic predictions, and a tendency to overfit the training data. In principle, the Bayesian approach to learning neural networks does not have these problems. However, existing Bayesian techniques lack scalability to large dataset and network sizes. In this work we present a novel scalable method for learning Bayesian neural networks, called probabilistic backpropagation (PBP). Similar to classical backpropagation, PBP works by computing a forward propagation of probabilities through the network and then doing a backward computation of gradients. A series of experiments on ten real-world datasets show that PBP is significantly faster than other techniques, while offering competitive predictive abilities. Our experiments also show that PBP provides accurate estimates of the posterior variance on the network weights.
研究动机与目标
- 为解决标准反向传播在神经网络训练中的局限性,如缺乏不确定性量化和对超参数调优的敏感性。
- 开发一种适用于大规模神经网络和数据集的可扩展贝叶斯学习方法,克服传统贝叶斯推断技术的计算不可行性。
- 在保持高预测性能的同时,提供网络权重的准确后验方差估计。
- 通过利用可靠的后验方差估计,实现基于不确定性的主动学习数据选择。
- 将反向传播的效率与贝叶斯推断在深度学习中的鲁棒性相结合。
提出的方法
- PBP使用高斯分布的乘积来近似神经网络权重的后验分布。
- 它通过网络前向传播概率分布,以计算数据的边际似然。
- 反向传播计算边际似然相对于高斯后验近似参数的梯度。
- 这些梯度用于通过随机优化迭代更新后验近似的均值和方差。
- 该方法支持随机和主动数据收集,其中主动学习由预测方差最大化引导。
- PBP被设计为可扩展至大规模数据集和深度架构,而许多现有的贝叶斯神经网络方法不具备此特性。
实验结果
研究问题
- RQ1能否开发一种可扩展的贝叶斯神经网络训练方法,在保持高预测准确性的同时提供校准的不确定性估计?
- RQ2在真实世界数据集上,PBP与HMC、EP和拉普拉斯近似等成熟贝叶斯方法相比,在性能和速度方面表现如何?
- RQ3PBP在多大程度上可通过提供可靠的后验方差估计来支持主动学习,以实现数据选择?
- RQ4PBP是否避免了标准反向传播中常见的超参数敏感性和过拟合问题?
- RQ5PBP能否在大规模网络和数据集上有效近似权重的后验分布?
主要发现
- PBP在十个真实世界数据集上的测试均方根误差(RMSE)表现具有竞争力,与HMC、EP和LA相比达到或优于其水平。
- 在主动学习设置中,PBP显著优于EP和LA,尤其在波士顿(Boston)、能源(Energy)、发电厂(Power Plant)和游艇(Yacht)数据集上,表明其不确定性估计具有可靠性。
- 使用PBP的主动学习策略比随机采样更有效地降低测试RMSE,其改进效果与HMC相当,证明了PBP后验方差估计的实用性。
- PBP显著快于HMC和EP,使其适用于大规模贝叶斯神经网络学习。
- 拉普拉斯近似表现较差,因其对角线黑塞矩阵假设导致超参数估计错误,而PBP避免了此问题。
- 通过与HMC的基准结果对比,PBP生成了准确的网络权重后验方差估计,证实了其在不确定性量化中的可靠性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。