QUICK REVIEW

[论文解读] Model Selection in Bayesian Neural Networks via Horseshoe Priors

Soumya Ghosh, Finale Doshi‐Velez|arXiv (Cornell University)|May 29, 2017

Gaussian Processes and Bayesian Inference参考文献 29被引用 47

一句话总结

本文提出在贝叶斯神经网络中对节点预激活值使用霍希斯（horseshoe）先验，通过剪枝不活跃神经元实现自动、连续的模型选择。该方法利用霍什斯先验的重尾和尖峰特性，结合共享的尺度参数，在不牺牲预测准确性的情况下，实现紧凑且高性能的网络结构，即使在过参数化时亦能保持良好表现。

ABSTRACT

Bayesian Neural Networks (BNNs) have recently received increasing attention for their ability to provide well-calibrated posterior uncertainties. However, model selection---even choosing the number of nodes---remains an open question. In this work, we apply a horseshoe prior over node pre-activations of a Bayesian neural network, which effectively turns off nodes that do not help explain the data. We demonstrate that our prior prevents the BNN from under-fitting even when the number of nodes required is grossly over-estimated. Moreover, this model selection over the number of nodes doesn't come at the expense of predictive or computational performance; in fact, we learn smaller networks with comparable predictive performance to current approaches.

研究动机与目标

为解决贝叶斯神经网络中模型选择的开放性问题，特别是隐藏单元数量的选择问题。
开发一种计算高效且统计有效的剪枝冗余神经元的方法，同时不损害预测性能。
实现连续可微的模型选择，避免尖刺-平滑（spike-and-slab）先验带来的离散组合复杂性。
证明在节点级权重尺度上使用霍什斯先验可实现强稀疏性，同时保持或提升预测准确性。
为贝叶斯神经网络中的网络宽度提供一种可扩展的替代方案，避免手动超参数搜索。

提出的方法

在每一层中，对每个节点的权重方差应用霍什斯先验，并在该层内使用共享的全局尺度参数 $\upsilon_l$。
采用霍什斯先验的非中心化参数化形式，以提升变分推断的稳定性并减少局部最优解。
将每个节点的权重向量 $w_{kl}$ 建模为条件正态分布，其尺度为 $\tau_{kl} \cdot \upsilon_l$，其中 $\tau_{kl}$ 和 $\upsilon_l$ 服从半柯西分布。
利用霍什斯先验的重尾特性，使大权重免于收缩，同时将小权重推向零，从而有效关闭不活跃节点。
采用完全因子化的变分推断近似方法，使该方法可扩展至更大规模网络，同时保持可微性与现代深度学习框架的兼容性。
实现对离散模型选择的连续松弛，避免尖刺-平滑模型的不可行性，同时达到类似的稀疏性。

实验结果

研究问题

RQ1在贝叶斯神经网络中，对节点预激活值使用霍什斯先验是否能有效实现自动模型选择？
RQ2在层内节点间共享尺度参数是否能实现有效的单元级稀疏性，同时不损害预测性能？
RQ3即使网络严重过参数化，霍什斯先验是否仍能防止欠拟合？
RQ4与最先进的变分推断方法（如 VMG）相比，基于霍什斯的 BNN 在预测准确性和不确定性校准方面的表现如何？
RQ5在该设置中，霍什斯先验的非中心化参数化是否对鲁棒推断是必要的？

主要发现

霍什斯先验通过连续可微的正则化方式有效实现自动模型选择，剪枝冗余神经元，无需离散模型平均。
即使初始化时使用大量节点，HS-BNN 仍能避免欠拟合，并学习到紧凑且高性能的网络结构。
在 UCI 回归数据集上，HS-BNN 的预测性能与 VMG 相当或更优，RMSE 和对数似然得分也相当或更优。
在 Naval 和 Kin8nm 数据集上，HS-BNN 在预测对数似然方面显著优于 VMG，分别达到 5.52 和 1.12，而 VMG 分别为 2.46 和 1.10。
可视化结果表明，HS-BNN 学习到更具可解释性的滤波器，表现出更强的稀疏性，且滤波器对应于有意义的模式（如数字或边缘），而其他稀疏性较弱的模型则不具备此特性。
该方法保持了计算效率与可扩展性，表明连续先验可实现与离散尖刺-平滑模型相当的稀疏性，同时避免了其计算负担。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。