Skip to main content
QUICK REVIEW

[论文解读] All You Need is a Good Functional Prior for Bayesian Deep Learning

Ba-Hien Tran, Simone Rossi|arXiv (Cornell University)|Nov 25, 2020
Gaussian Processes and Bayesian Inference参考文献 64被引用 23
一句话总结

本文提出了一种新颖的框架,通过使用Wasserstein距离最小化将神经网络权重先验与用户指定的功能先验对齐,从而改进贝叶斯深度学习。通过调整参数先验以匹配期望的函数空间行为——尤其是通过高斯过程诱导的先验——该方法在多个基准测试中实现了不确定性量化和预测准确性的最先进性能。

ABSTRACT

The Bayesian treatment of neural networks dictates that a prior distribution is specified over their weight and bias parameters. This poses a challenge because modern neural networks are characterized by a large number of parameters, and the choice of these priors has an uncontrolled effect on the induced functional prior, which is the distribution of the functions obtained by sampling the parameters from their prior distribution. We argue that this is a hugely limiting aspect of Bayesian deep learning, and this work tackles this limitation in a practical and effective way. Our proposal is to reason in terms of functional priors, which are easier to elicit, and to "tune" the priors of neural network parameters in a way that they reflect such functional priors. Gaussian processes offer a rigorous framework to define prior distributions over functions, and we propose a novel and robust framework to match their prior with the functional prior of neural networks based on the minimization of their Wasserstein distance. We provide vast experimental evidence that coupling these priors with scalable Markov chain Monte Carlo sampling offers systematically large performance improvements over alternative choices of priors and state-of-the-art approximate Bayesian deep learning approaches. We consider this work a considerable step in the direction of making the long-standing challenge of carrying out a fully Bayesian treatment of neural networks, including convolutional neural networks, a concrete possibility.

研究动机与目标

  • 为解决贝叶斯神经网络中功能先验不可控的问题,即权重先验引入了意外的归纳偏置。
  • 通过将关注点从参数先验转向功能先验,实现更可解释且高效的先验设定。
  • 开发一种实用方法,校准参数先验,使得所诱导的功能先验匹配目标分布(例如高斯过程先验)。
  • 证明该方法在预测性能和不确定性校准方面优于标准先验和现有近似贝叶斯方法。

提出的方法

  • 将匹配贝叶斯神经网络权重先验所诱导的功能先验(例如高斯过程)与目标功能先验的问题形式化。
  • 使用诱导功能先验与目标功能先验之间的Wasserstein距离作为优化目标。
  • 应用Kantorovich对偶性,将Wasserstein距离重述为对1-Lipschitz函数的最大化问题,从而实现可微分优化。
  • 采用Wasserstein距离的对偶形式,使得可通过功能先验分布进行反向传播。
  • 通过优化权重先验的超参数(例如方差、尺度)来最小化与目标功能先验的Wasserstein距离。
  • 将校准后的参数先验与可扩展的马尔可夫链蒙特卡洛(MCMC)采样相结合,用于后验推断。

实验结果

研究问题

  • RQ1我们如何系统地控制贝叶斯神经网络权重先验所诱导的功能先验?
  • RQ2我们能否设计一种方法,通过调整权重先验参数来匹配期望的功能先验(例如GP先验)?
  • RQ3基于Wasserstein距离的目标函数在先验匹配中对预测性能和不确定性校准有何影响?
  • RQ4该方法是否优于标准高斯先验和最先进的近似贝叶斯深度学习方法?
  • RQ5该框架是否能有效应用于全连接网络和卷积神经网络?

主要发现

  • 与标准高斯先验相比,所提出的方法在多个视觉和回归基准测试中显著提升了预测性能。
  • 校准后功能先验带来了更好的不确定性校准效果,表现为更低的负对数似然和更高的预测准确率。
  • 该方法在贝叶斯深度学习中实现了最先进性能,优于标准先验和先进的近似推理方法。
  • 使用Wasserstein距离可实现对功能先验匹配的鲁棒且稳定的优化,即使在高维参数空间中亦然。
  • 实验表明,该方法有效缓解了深度网络中的病态行为,如深层tanh网络中出现的退化函数输出(例如水平线)。
  • 该框架可推广至全连接网络和卷积神经网络,在各类架构中均表现出一致的性能提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。