Skip to main content
QUICK REVIEW

[论文解读] Structured Variational Learning of Bayesian Neural Networks with Horseshoe Priors

Soumya Ghosh, Jiayu Yao|arXiv (Cornell University)|Jun 13, 2018
Adversarial Robustness in Machine Learning参考文献 32被引用 27
一句话总结

本文提出一种带有正则化正态分布先验的结构化变分推断方法,用于贝叶斯神经网络,通过剪枝冗余神经元实现自动模型压缩,同时保持预测性能。该方法通过分层先验和后验结构感知近似,在小样本场景(如强化学习)中实现最先进的收缩效果与泛化性能。

ABSTRACT

Bayesian Neural Networks (BNNs) have recently received increasing attention for their ability to provide well-calibrated posterior uncertainties. However, model selection---even choosing the number of nodes---remains an open question. Recent work has proposed the use of a horseshoe prior over node pre-activations of a Bayesian neural network, which effectively turns off nodes that do not help explain the data. In this work, we propose several modeling and inference advances that consistently improve the compactness of the model learned while maintaining predictive performance, especially in smaller-sample settings including reinforcement learning.

研究动机与目标

  • 为解决贝叶斯神经网络(BNN)模型选择问题,特别是确定最优隐藏单元数量的问题。
  • 在小样本设置(包括强化学习)中提升泛化能力与预测性能,此类场景中过拟合与高不确定性较为常见。
  • 开发一种计算高效的自动网络压缩方法,通过识别并移除无关神经元实现。
  • 通过保留关键后验依赖关系,克服现有变分推断方法在BNN中的局限性。

提出的方法

  • 在神经元预激活值上引入正则化正态分布先验,采用层共享的全局收缩参数与单元特异的局部尺度,以实现自动稀疏化。
  • 采用正态分布先验的非中心化参数化形式,以提升优化稳定性并避免陷入不良局部最优。
  • 采用结构化变分近似方法,保留权重与超参数之间的依赖关系,从而提升后验近似质量。
  • 提出一种新颖的剪枝阈值规则,无需依赖后验的点估计即可实现剪枝,从而实现直接的模型压缩。
  • 使用逆伽马先验重新参数化半柯西分布,提升数值稳定性与收敛性。
  • 将结构化变分推断与重参数化技巧结合,支持通过随机梯度下降进行端到端训练。

实验结果

研究问题

  • RQ1正则化正态分布先验是否能够通过识别并移除冗余神经元,在贝叶斯神经网络中实现数据驱动的自动模型选择?
  • RQ2与标准变分方法(如矩阵高斯近似)相比,带有正态分布先验的结构化变分推断在预测性能与模型紧凑性方面表现如何?
  • RQ3所提出的方法是否能在低数据场景(如有限轨迹的基于模型的强化学习)中提升泛化能力?
  • RQ4所提出的神经元剪枝阈值规则是否优于依赖后验均值点估计的现有方法?
  • RQ5分层先验与结构化近似相结合,对后验不确定性校准与预测方差有何影响?

主要发现

  • 在多个UCI回归数据集上,结构化正则化正态分布BNN(reg-HS)的预测性能与矩阵高斯变分方法(VMG)相比具有竞争力或更优。
  • reg-HS模型通过剪枝最多90%的神经元实现了显著的模型压缩,且未损失预测准确性,证明了其在自动架构选择方面的有效性。
  • 在低数据场景(训练数据为10%)下,reg-HS在预测性能上优于VMG,尤其在减少过拟合与不确定性方差方面表现更优。
  • 在强化学习任务中,reg-HS BNN实现了更高的平均奖励(如在2D地图任务中为995.4 vs. 975.4)与更低的测试RMSE,表明其在有限数据下具有更优的策略学习能力。
  • 所提出的阈值规则成功识别并移除了不活跃神经元,且无需后验点估计,实现了直接而高效的剪枝。
  • 对剪枝后的模型进行微调对性能影响极小,表明结构化变分近似已能生成鲁棒且紧凑的模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。