[论文解读] On the Expressiveness of Approximate Inference in Bayesian Neural Networks
该论文分析贝叶斯神经网络中的均场变分推断(MFVI)和蒙特卡罗 dropout,展示单隐藏层网络的根本局限性,以及更深网络的部分普遍性,并且在实践中仍存在经验性病态。
While Bayesian neural networks (BNNs) hold the promise of being flexible, well-calibrated statistical models, inference often requires approximations whose consequences are poorly understood. We study the quality of common variational methods in approximating the Bayesian predictive distribution. For single-hidden layer ReLU BNNs, we prove a fundamental limitation in function-space of two of the most commonly used distributions defined in weight-space: mean-field Gaussian and Monte Carlo dropout. We find there are simple cases where neither method can have substantially increased uncertainty in between well-separated regions of low uncertainty. We provide strong empirical evidence that exact inference does not have this pathology, hence it is due to the approximation and not the model. In contrast, for deep networks, we prove a universality result showing that there exist approximate posteriors in the above classes which provide flexible uncertainty estimates. However, we find empirically that pathologies of a similar form as in the single-hidden layer case can persist when performing variational inference in deeper networks. Our results motivate careful consideration of the implications of approximate inference methods in BNNs.
研究动机与目标
- 评估常见权重空间近似(MFVI 和 MCDO)在 BNNs 的贝叶斯预测分布中的捕捉能力。
- 描述单隐藏层网络中 MFVI 和 MCDO 的函数空间局限。
- 在较深的网络中,利用这些近似对均值和方差函数的普适性结果。
- 提供近似推断中的病态的实证证据,并将其与精确推断(HMC/GP)进行对比。
提出的方法
- 在 1HL 的 ReLU 网络中,基于 MFVI 和 MCDO 对函数空间中 BNN 输出的方差进行理论分析(定理 1 和 2)。
- 证明在 2HL 或更深网络中,使用 MFVI 和 MCDO 对均值和方差函数的普适近似结果(定理 3)。
- 将预测与无限宽度 GP 和 HMC 作为参考的精确推断进行比较。
- 在浅层网络中实证验证中间不确定性病态和过度自信(图 3,图 5)。
- 对 Naval 回归进行主动学习案例研究,以评估不确定性病态的实际影响。
实验结果
研究问题
- RQ1单隐藏层 BNN 中,均场高斯近似和 MC dropout 能否忠实代表精确后验预测不确定性?
- RQ2更深网络是否缓解或消除与浅层近似相关的中间不确定性病态?
- RQ3均值/方差函数的普适性结果在优化 ELBO 时是否转化为实用的良好预测后验?
- RQ4近似推断病态对主动学习性能相对于精确推断(GP/HMC)有何影响?
主要发现
- 在 1HL ReLU BNN 中,MFVI 和 MCDO 无法表示在彼此分离良好区域之间的不确定性增加,这与精确后验不同。
- 对于用于 MFVI 与 MCDO 的深层网络,均值和方差函数存在普适近似的可能性,但在实际中对 ELBO 的优化仍可能无法实现。
- 实证证据表明 MFVI 和 MCDO 在数据簇之间过于自信,并且在低维回归中相对于精确推断(GP/HMC)表现不佳。
- 使用近似 BNN 进行主动学习在很大程度上落后于 GP,相较于从内部簇中抽样方面表现不佳。
- 深度有帮助:2HL+ 可以近似均值/方差函数;然而在更深的网络中,类似浅层的病态在 VI 下仍可能持存。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。