[论文解读] Model Selection in Bayesian Neural Networks via Horseshoe Priors
本文提出在贝叶斯神经网络中对节点预激活值使用霍希斯(horseshoe)先验,通过剪枝不活跃神经元实现自动、连续的模型选择。该方法利用霍什斯先验的重尾和尖峰特性,结合共享的尺度参数,在不牺牲预测准确性的情况下,实现紧凑且高性能的网络结构,即使在过参数化时亦能保持良好表现。
Bayesian Neural Networks (BNNs) have recently received increasing attention for their ability to provide well-calibrated posterior uncertainties. However, model selection---even choosing the number of nodes---remains an open question. In this work, we apply a horseshoe prior over node pre-activations of a Bayesian neural network, which effectively turns off nodes that do not help explain the data. We demonstrate that our prior prevents the BNN from under-fitting even when the number of nodes required is grossly over-estimated. Moreover, this model selection over the number of nodes doesn't come at the expense of predictive or computational performance; in fact, we learn smaller networks with comparable predictive performance to current approaches.
研究动机与目标
- 为解决贝叶斯神经网络中模型选择的开放性问题,特别是隐藏单元数量的选择问题。
- 开发一种计算高效且统计有效的剪枝冗余神经元的方法,同时不损害预测性能。
- 实现连续可微的模型选择,避免尖刺-平滑(spike-and-slab)先验带来的离散组合复杂性。
- 证明在节点级权重尺度上使用霍什斯先验可实现强稀疏性,同时保持或提升预测准确性。
- 为贝叶斯神经网络中的网络宽度提供一种可扩展的替代方案,避免手动超参数搜索。
提出的方法
- 在每一层中,对每个节点的权重方差应用霍什斯先验,并在该层内使用共享的全局尺度参数 $\upsilon_l$。
- 采用霍什斯先验的非中心化参数化形式,以提升变分推断的稳定性并减少局部最优解。
- 将每个节点的权重向量 $w_{kl}$ 建模为条件正态分布,其尺度为 $\tau_{kl} \cdot \upsilon_l$,其中 $\tau_{kl}$ 和 $\upsilon_l$ 服从半柯西分布。
- 利用霍什斯先验的重尾特性,使大权重免于收缩,同时将小权重推向零,从而有效关闭不活跃节点。
- 采用完全因子化的变分推断近似方法,使该方法可扩展至更大规模网络,同时保持可微性与现代深度学习框架的兼容性。
- 实现对离散模型选择的连续松弛,避免尖刺-平滑模型的不可行性,同时达到类似的稀疏性。
实验结果
研究问题
- RQ1在贝叶斯神经网络中,对节点预激活值使用霍什斯先验是否能有效实现自动模型选择?
- RQ2在层内节点间共享尺度参数是否能实现有效的单元级稀疏性,同时不损害预测性能?
- RQ3即使网络严重过参数化,霍什斯先验是否仍能防止欠拟合?
- RQ4与最先进的变分推断方法(如 VMG)相比,基于霍什斯的 BNN 在预测准确性和不确定性校准方面的表现如何?
- RQ5在该设置中,霍什斯先验的非中心化参数化是否对鲁棒推断是必要的?
主要发现
- 霍什斯先验通过连续可微的正则化方式有效实现自动模型选择,剪枝冗余神经元,无需离散模型平均。
- 即使初始化时使用大量节点,HS-BNN 仍能避免欠拟合,并学习到紧凑且高性能的网络结构。
- 在 UCI 回归数据集上,HS-BNN 的预测性能与 VMG 相当或更优,RMSE 和对数似然得分也相当或更优。
- 在 Naval 和 Kin8nm 数据集上,HS-BNN 在预测对数似然方面显著优于 VMG,分别达到 5.52 和 1.12,而 VMG 分别为 2.46 和 1.10。
- 可视化结果表明,HS-BNN 学习到更具可解释性的滤波器,表现出更强的稀疏性,且滤波器对应于有意义的模式(如数字或边缘),而其他稀疏性较弱的模型则不具备此特性。
- 该方法保持了计算效率与可扩展性,表明连续先验可实现与离散尖刺-平滑模型相当的稀疏性,同时避免了其计算负担。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。