Skip to main content
QUICK REVIEW

[论文解读] Bayesian Deep Learning and a Probabilistic Perspective of Generalization

Andrew Gordon Wilson, Pavel Izmailov|arXiv (Cornell University)|Feb 20, 2020
Gaussian Processes and Bayesian Inference参考文献 81被引用 182
一句话总结

本文通过贝叶斯边际化重新框架深度学习中的泛化,展示深度集成和多模态边际化(MultiSWAG)通过在多个吸引盆之间的近似贝叶斯预测分布来提高预测准确性和校准性。

ABSTRACT

The key distinguishing property of a Bayesian approach is marginalization, rather than using a single setting of weights. Bayesian marginalization can particularly improve the accuracy and calibration of modern deep neural networks, which are typically underspecified by the data, and can represent many compelling but different solutions. We show that deep ensembles provide an effective mechanism for approximate Bayesian marginalization, and propose a related approach that further improves the predictive distribution by marginalizing within basins of attraction, without significant overhead. We also investigate the prior over functions implied by a vague distribution over neural network weights, explaining the generalization properties of such models from a probabilistic perspective. From this perspective, we explain results that have been presented as mysterious and distinct to neural network generalization, such as the ability to fit images with random labels, and show that these results can be reproduced with Gaussian processes. We also show that Bayesian model averaging alleviates double descent, resulting in monotonic performance improvements with increased flexibility. Finally, we provide a Bayesian perspective on tempering for calibrating predictive distributions.

研究动机与目标

  • 基于模型支持和归纳偏差,提出一种对泛化的概率视角。
  • 论证对模型进行边际化比单一权重优化提供更好的预测分布。
  • 证明深度集成近似贝叶斯边际化,并提出在吸引盆内进行边际化的方法。
  • 展示权重先验所诱导的函数先验如何解释泛化现象,以及随机标签的神秘结果。

提出的方法

  • 将泛化框定为一个二维概念:模型支持与归纳偏差。
  • 定义贝叶斯模型平均(BMA)并将其与权重边际化联系起来。
  • 将深度集成解读为近似的贝叶斯模型平均,能够捕捉跨越吸引盆的多样性。
  • 引入 MultiSWAG,一种多模态后验近似,将多个 SWAG 吸引盆聚合为高斯混合分布。
  • 将边际化方法与传统的蒙特卡洛和变分方法进行比较,聚焦于函数空间的多样性与预测校准。

实验结果

研究问题

  • RQ1与单点优化相比,神经网络参数的边际化如何影响预测准确性和校准?
  • RQ2深度集成是否可以被解释为贝叶斯推断的一种实际近似,以逼近贝叶斯模型平均?
  • RQ3多模态边际化(MultiSWAG)是否在单一吸引盆方法和标准集成上提升性能,尤其在分布偏移下?
  • RQ4常见权重先验所诱导的函数先验是什么,它们如何影响泛化以及拟合随机标签的能力?
  • RQ5温度调节如何影响贝叶斯深度学习中的校准和预测不确定性?

主要发现

  • 深度集成近似贝叶斯边际化,通过表示多样化的吸引盆来提高校准性和准确性。
  • 多模态边际化(MultiSWAG)在单一吸引盆方法和标准集成上实现显著提升,尤其在数据损坏与分布偏移时。
  • 带多模态后验的贝叶斯模型平均缓解双降现象,并随着模型灵活性的增加带来单调改进。
  • 由权重先验诱导的函数先验可以具有合理的归纳偏置,解释诸如在拟合随机标签时仍能在干净数据上保持泛化等现象。
  • 高斯过程能够再现一些类似神经网络的泛化现象,表明这些结果并非网络特有,而是由具有大支撑和适当归纳偏置的函数分布所产生。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。