[论文解读] Quality of Uncertainty Quantification for Bayesian Neural Network Inference
论文通过对10种贝叶斯神经网络推断方法进行经验比较,评估它们在量化不确定性方面的能力;结果表明,像测试对数似然这样的常用指标可能产生误导,且更丰富的后验捕获方法并不总是带来更好的后验近似。
Bayesian Neural Networks (BNNs) place priors over the parameters in a neural network. Inference in BNNs, however, is difficult; all inference methods for BNNs are approximate. In this work, we empirically compare the quality of predictive uncertainty estimates for 10 common inference methods on both regression and classification tasks. Our experiments demonstrate that commonly used metrics (e.g. test log-likelihood) can be misleading. Our experiments also indicate that inference innovations designed to capture structure in the posterior do not necessarily produce high quality posterior approximations.
研究动机与目标
- 推动对贝叶斯神经网络中不确定性的稳健评估,超越标准预测指标。
- 在回归和分类任务上比较广泛的近似推断方法。
- 研究不同方法对真实后验的近似程度,以及这与预测不确定性之间的关系。
- 就何时常用的不确定性指标可靠或具有误导性给出指南。
提出的方法
- 评估10种推断方法(BBB、PBP、BB-ALPHA、MNF、MVG、BBH、Dropout、Ensemble、SGLD、SGHMC)相对于真实的HMC。
- 创建伪造的、接近真实后验的数据集,以便有意义地评估后验预测不确定性。
- 在固定先验和神经网络(回归1个隐藏层、分类2个隐藏层)下使用Adam进行优化(HMC/SGLD/SGHMC除外)。
- 通过多种指标评估后验预测质量,包括RMSE、测试边际对数似然(LogLL)、预测区间覆盖概率(PICP)以及预测区间宽度的均值(MPIW)。
- 论证对数似然和校准指标可能是后验保真性的差 proxy,并通过接近真实后验的实验进行说明。
实验结果
研究问题
- RQ1不同的贝叶斯神经网络推断方法在预测不确定性质量方面有何差异?
- RQ2在不同任务和数据规模下,常见的不确定性指标是否可靠地反映对真实后验的保真度?
- RQ3通过更高级的变分族或集成来引入后验结构,是否在实践中带来更好的后验近似?
主要发现
- 测试对数似然和校准指标可能是对后验保真性的误导性指标;它们未必反映真实后验近似质量。
- 某些捕获后验结构的方法并不始终产生对真实后验的更好近似。
- SGHMC 往往产生的后验预测分布与 HMC 最为相似,而 SGLD 常常低估不确定性。
- Ensemble 若未能适当鼓励模型多样性,可能导致不可靠的不确定性估计。
- 具有更丰富的散度或结构化变分族的方法并不在这些实验中普遍优于简单方法。
- 在不同任务中,许多近似方法在数据覆盖不足的区域会低估不确定性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。