Skip to main content
QUICK REVIEW

[论文解读] 'In-Between' Uncertainty in Bayesian Neural Networks

Andrew Y. K. Foong, Yingzhen Li|arXiv (Cornell University)|Jun 27, 2019
Gaussian Processes and Bayesian Inference参考文献 22被引用 30
一句话总结

本文揭示了贝叶斯神经网络中均值场变分推断(MFVI)的一个关键局限:在分离数据簇之间的区域——即所谓的“中间”不确定性区域,其无法生成校准良好的不确定性估计。相比之下,线性化拉普拉斯近似在这些分布外区域提供了显著更优的不确定性校准,尤其在小型网络中表现更佳,同时在标准基准测试中仍保持优异性能。

ABSTRACT

We describe a limitation in the expressiveness of the predictive uncertainty estimate given by mean-field variational inference (MFVI), a popular approximate inference method for Bayesian neural networks. In particular, MFVI fails to give calibrated uncertainty estimates in between separated regions of observations. This can lead to catastrophically overconfident predictions when testing on out-of-distribution data. Avoiding such overconfidence is critical for active learning, Bayesian optimisation and out-of-distribution robustness. We instead find that a classical technique, the linearised Laplace approximation, can handle 'in-between' uncertainty much better for small network architectures.

研究动机与目标

  • 调查均值场变分推断(MFVI)在生成贝叶斯神经网络可靠不确定性估计方面的局限性。
  • 评估不同推断方法在分离数据簇之间区域——即'中间'不确定性——中处理不确定性的能力。
  • 证明MFVI在这些区域可能表现出灾难性的过度自信,从而削弱其在主动学习和鲁棒决策中的应用。
  • 表明经典线性化拉普拉斯近似能更好地捕捉中间不确定性,尤其在小型网络架构中。
  • 提出一种改进的UCI基准,专门隔离并评估模型在中间不确定性上的表现,与标准泛化任务相区分。

提出的方法

  • 提出一种新的评估协议,采用'间隙分割'(gap splits)——即测试集从两个分离数据簇之间的中间区域采样——替代传统的均匀子采样。
  • 将MFVI(均值场和全协方差变体)与线性化拉普拉斯近似(LLA)及随机拉普拉斯(SLA)在贝叶斯神经网络的不确定性估计中进行比较。
  • 利用拉普拉斯近似将后验近似为以MAP估计为中心的高斯分布,协方差由对数后验的负Hessian矩阵逆得到。
  • 采用高斯-牛顿近似,仅通过一阶梯度高效计算Hessian矩阵,确保半正定性。
  • 以保留数据集上的对数似然作为主要评估指标,该指标同时惩罚预测不准确性和过度自信。
  • 将方法应用于标准UCI回归数据集,特别关注能量和海军数据集,因为在这些数据集中MFVI在间隙分割上表现灾难性失败。

实验结果

研究问题

  • RQ1均值场变分推断(MFVI)是否能在训练数据分离簇之间的区域生成校准良好的不确定性估计?
  • RQ2MFVI在'中间'不确定性上的表现与线性化拉普拉斯近似相比如何?
  • RQ3标准UCI基准能否充分评估模型在簇间分布外区域的不确定性估计能力?
  • RQ4为何MFVI无法在这些中间区域建模不确定性?其均值场近似中的何种结构性缺陷导致了这一问题?
  • RQ5线性化拉普拉斯近似是否是贝叶斯神经网络不确定性估计中MFVI的可行且更鲁棒的替代方案?

主要发现

  • MFVI在标准UCI基准上表现良好,但在间隙分割上灾难性失败,显示出在数据簇之间的区域存在过度自信的预测。
  • 线性化拉普拉斯近似(LLA)在间隙分割上显著优于MFVI,实现了明显更高的对数似然得分——例如,在海军数据集上使用1HL tanh网络时,LLA得分为6.40±0.06,而MFVI仅为-2.83±0.01。
  • 在标准UCI分割上,MFVI与LLA表现相当,表明标准基准未能暴露MFVI在中间不确定性上的失败。
  • MFVI的失败并非源于优化不佳或网络架构问题,而是由于均值场近似无法捕捉参数间对建模数据间隙不确定性至关重要的依赖关系。
  • 全协方差变分推断(FCVI)在间隙分割上的表现优于MFVI,但仍逊于LLA,表明即使在灵活的变分族中,中间不确定性仍是挑战。
  • 线性化拉普拉斯近似在中间区域提供了校准良好的不确定性估计,使其在主动学习和分布外鲁棒性方面成为更可靠的选择。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。