[论文解读] Try Depth Instead of Weight Correlations: Mean-field is a Less Restrictive Assumption for Deeper Networks.
本文挑战了深度贝叶斯神经网络中均值场变分推断具有局限性的假设,表明更深的均值场模型可以实现与具有复杂权重后验的浅层网络相当的函数空间分布。通过哈密顿蒙特卡洛和大规模对比实验的实证验证表明,更深的均值场网络在理论上合理且在实践中有效,是结构化、计算成本高昂的后验分布的可行替代方案。
We challenge the longstanding assumption that the mean-field approximation for variational inference in Bayesian neural networks is severely restrictive, and show this is not the case in deep networks. We prove several results indicating that deep mean-field variational weight posteriors can induce similar distributions in function-space to those induced by shallower networks with complex weight posteriors. We validate our theoretical contributions empirically, both through examination of the weight posterior using Hamiltonian Monte Carlo in small models and by comparing diagonal- to structured-covariance in large settings. Since complex variational posteriors are often expensive and cumbersome to implement, our results suggest that using mean-field variational inference in a deeper model is both a practical and theoretically justified alternative to structured approximations.
研究动机与目标
- 挑战长期以来认为均值场变分推断在深度贝叶斯神经网络中过于受限的观点。
- 探究具有均值场权重后验的更深网络是否可以实现与具有复杂权重后验的浅层网络相似的函数空间分布。
- 为使用更深的均值场模型而非结构化、计算成本高昂的近似方法,提供理论和实证依据。
提出的方法
- 理论分析证明,深层均值场变分后验可以诱导出与浅层网络中复杂权重后验相当的函数空间分布。
- 实证验证采用哈密顿蒙特卡洛方法,检查小型模型中权重后验的特性,证实理论结论。
- 在大型模型中开展对比实验,评估变分后验中对角与结构化协方差的性能,检验功能等价性。
- 本研究将深层架构中的均值场推断作为结构化后验近似方法的实用替代方案。
- 理论结果的推导基于深度可补偿均值场权重后验简化所带来的影响这一假设。
实验结果
研究问题
- RQ1均值场变分推断在深度贝叶斯神经网络中是否依然具有限制性,还是深度可以缓解其局限性?
- RQ2更深的均值场网络能否产生与具有复杂权重后验的浅层网络相似的函数空间分布?
- RQ3在深层模型中使用均值场推断,是否是结构化后验近似方法在理论上合理且实证有效的替代方案?
主要发现
- 更深的均值场变分后验可以诱导出与具有复杂权重后验的浅层网络相当的函数空间分布。
- 通过哈密顿蒙特卡洛获得的实证结果表明,更深模型中均值场权重后验能够捕捉有意义的功能不确定性。
- 在大规模设置下,对角协方差与结构化协方差变分后验表现出相当的性能,表明在增加深度时,均值场已足够。
- 理论分析表明,深度可减少均值场假设带来的功能约束。
- 本研究为使用更深的均值场模型作为复杂结构化后验的实用且理论合理的替代方案提供了有力依据。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。