[论文解读] Deterministic Variational Inference for Robust Bayesian Neural Networks
本文提出确定性变分推断(DVI),一种鲁棒且高效的贝叶斯神经网络方法,通过确定性矩近似消除梯度方差,并通过经验贝叶斯方法自动选择先验。DVI在异方差回归中相较于随机变分推断展现出更优的预测性能,且在UCI数据集上测试对数似然持续提升。
Bayesian neural networks (BNNs) hold great promise as a flexible and principled solution to deal with uncertainty when learning from finite data. Among approaches to realize probabilistic inference in deep neural networks, variational Bayes (VB) is theoretically grounded, generally applicable, and computationally efficient. With wide recognition of potential advantages, why is it that variational Bayes has seen very limited practical use for BNNs in real applications? We argue that variational inference in neural networks is fragile: successful implementations require careful initialization and tuning of prior variances, as well as controlling the variance of Monte Carlo gradient estimates. We provide two innovations that aim to turn VB into a robust inference tool for Bayesian neural networks: first, we introduce a novel deterministic method to approximate moments in neural networks, eliminating gradient variance; second, we introduce a hierarchical prior for parameters and a novel Empirical Bayes procedure for automatically selecting prior variances. Combining these two innovations, the resulting method is highly efficient and robust. On the application of heteroscedastic regression we demonstrate good predictive performance over alternative approaches.
研究动机与目标
- 解决变分推断在贝叶斯神经网络中因梯度方差高和对先验选择敏感而导致的脆弱性问题。
- 开发一种确定性方法,用于在ReLU和Heaviside网络中传播具有不确定性的激活,消除蒙特卡洛采样方差。
- 提出一种经验贝叶斯程序,利用层次先验实现权重先验方差的自动、数据自适应选择。
- 证明所提联合方法在预测性能和鲁棒性方面优于现有随机变分推断方法。
- 通过自动先验选择和训练稳定性提升,实现无需专家调优的贝叶斯神经网络实用化部署。
提出的方法
- 提出一种确定性近似方法,用于在具有不确定权重的神经网络中计算期望激活,以闭式期望替代随机蒙特卡洛采样。
- 推导出在高斯权重输入下,ReLU和Heaviside激活的一阶和二阶矩的精确解析表达式,实现无方差反向传播。
- 引入具有逆伽玛超先验的层次先验结构,通过经验贝叶斯方法实现对权重方差的自适应估计。
- 利用共轭先验推导出对先验方差的闭式后验更新,实现在训练过程中自动调优。
- 将该方法应用于同方差和异方差回归模型,为每个线性层设置独立的方差参数。
- 采用因子化高斯变分族表示权重,降低计算复杂度的同时保持表达能力。
实验结果
研究问题
- RQ1我们能否在不依赖蒙特卡洛采样的前提下,消除贝叶斯神经网络变分推断中的梯度方差?
- RQ2我们能否自动学习神经网络权重的最优先验方差,而无需人工调优?
- RQ3对激活矩的确定性近似是否能带来更稳定、更准确的贝叶斯神经网络训练?
- RQ4与随机变分推断相比,该方法在预测性能和收敛性方面表现如何?
- RQ5经验贝叶斯方法在先验选择上是否能在多种回归任务中持续优于人工先验调优?
主要发现
- DVI在多个UCI数据集上持续优于使用S=10样本的随机变分推断(MCVI),测试对数似然最高提升达每数据点0.35纳特。
- 对角DVI变体(dDVI)保留了大部分性能增益,证明其在不损失准确性的前提下具备计算效率。
- 使用DVI训练的异方差模型在性能上始终优于同方差模型,尽管模型更复杂,且未观察到过拟合现象。
- 经验贝叶斯方法在先验选择上始终找到优于或相当的性能,所有测试数据集均观察到性能提升。
- 该方法具有鲁棒性:在多次随机训练-测试划分中均能可靠收敛,无需专家干预或超参数调优。
- 确定性矩近似通过消除梯度估计中的随机性,稳定了训练过程,从而实现更快、更可靠的收敛。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。