Skip to main content
QUICK REVIEW

[论文解读] Model Selection in Bayesian Neural Networks via Horseshoe Priors

Soumya Ghosh, Finale Doshi‐Velez|arXiv (Cornell University)|May 29, 2017
Gaussian Processes and Bayesian Inference参考文献 29被引用 47
一句话总结

本文提出在贝叶斯神经网络中对节点预激活值使用霍希斯(horseshoe)先验,通过剪枝不活跃神经元实现自动、连续的模型选择。该方法利用霍什斯先验的重尾和尖峰特性,结合共享的尺度参数,在不牺牲预测准确性的情况下,实现紧凑且高性能的网络结构,即使在过参数化时亦能保持良好表现。

ABSTRACT

Bayesian Neural Networks (BNNs) have recently received increasing attention for their ability to provide well-calibrated posterior uncertainties. However, model selection---even choosing the number of nodes---remains an open question. In this work, we apply a horseshoe prior over node pre-activations of a Bayesian neural network, which effectively turns off nodes that do not help explain the data. We demonstrate that our prior prevents the BNN from under-fitting even when the number of nodes required is grossly over-estimated. Moreover, this model selection over the number of nodes doesn't come at the expense of predictive or computational performance; in fact, we learn smaller networks with comparable predictive performance to current approaches.

研究动机与目标

  • 为解决贝叶斯神经网络中模型选择的开放性问题,特别是隐藏单元数量的选择问题。
  • 开发一种计算高效且统计有效的剪枝冗余神经元的方法,同时不损害预测性能。
  • 实现连续可微的模型选择,避免尖刺-平滑(spike-and-slab)先验带来的离散组合复杂性。
  • 证明在节点级权重尺度上使用霍什斯先验可实现强稀疏性,同时保持或提升预测准确性。
  • 为贝叶斯神经网络中的网络宽度提供一种可扩展的替代方案,避免手动超参数搜索。

提出的方法

  • 在每一层中,对每个节点的权重方差应用霍什斯先验,并在该层内使用共享的全局尺度参数 $\upsilon_l$。
  • 采用霍什斯先验的非中心化参数化形式,以提升变分推断的稳定性并减少局部最优解。
  • 将每个节点的权重向量 $w_{kl}$ 建模为条件正态分布,其尺度为 $\tau_{kl} \cdot \upsilon_l$,其中 $\tau_{kl}$ 和 $\upsilon_l$ 服从半柯西分布。
  • 利用霍什斯先验的重尾特性,使大权重免于收缩,同时将小权重推向零,从而有效关闭不活跃节点。
  • 采用完全因子化的变分推断近似方法,使该方法可扩展至更大规模网络,同时保持可微性与现代深度学习框架的兼容性。
  • 实现对离散模型选择的连续松弛,避免尖刺-平滑模型的不可行性,同时达到类似的稀疏性。

实验结果

研究问题

  • RQ1在贝叶斯神经网络中,对节点预激活值使用霍什斯先验是否能有效实现自动模型选择?
  • RQ2在层内节点间共享尺度参数是否能实现有效的单元级稀疏性,同时不损害预测性能?
  • RQ3即使网络严重过参数化,霍什斯先验是否仍能防止欠拟合?
  • RQ4与最先进的变分推断方法(如 VMG)相比,基于霍什斯的 BNN 在预测准确性和不确定性校准方面的表现如何?
  • RQ5在该设置中,霍什斯先验的非中心化参数化是否对鲁棒推断是必要的?

主要发现

  • 霍什斯先验通过连续可微的正则化方式有效实现自动模型选择,剪枝冗余神经元,无需离散模型平均。
  • 即使初始化时使用大量节点,HS-BNN 仍能避免欠拟合,并学习到紧凑且高性能的网络结构。
  • 在 UCI 回归数据集上,HS-BNN 的预测性能与 VMG 相当或更优,RMSE 和对数似然得分也相当或更优。
  • 在 Naval 和 Kin8nm 数据集上,HS-BNN 在预测对数似然方面显著优于 VMG,分别达到 5.52 和 1.12,而 VMG 分别为 2.46 和 1.10。
  • 可视化结果表明,HS-BNN 学习到更具可解释性的滤波器,表现出更强的稀疏性,且滤波器对应于有意义的模式(如数字或边缘),而其他稀疏性较弱的模型则不具备此特性。
  • 该方法保持了计算效率与可扩展性,表明连续先验可实现与离散尖刺-平滑模型相当的稀疏性,同时避免了其计算负担。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。