[论文解读] Functional Variational Bayesian Neural Networks
本文介绍功能变分贝叶斯神经网络(fBNNs),对函数而非权重进行变分推断,使用一个功能性 ELBO 和有限测量集来近似 KL 发散,从而实现结构化先验和可扩展、可靠的不确定性估计。
Variational Bayesian neural networks (BNNs) perform variational inference over weights, but it is difficult to specify meaningful priors and approximate posteriors in a high-dimensional weight space. We introduce functional variational Bayesian neural networks (fBNNs), which maximize an Evidence Lower BOund (ELBO) defined directly on stochastic processes, i.e. distributions over functions. We prove that the KL divergence between stochastic processes equals the supremum of marginal KL divergences over all finite sets of inputs. Based on this, we introduce a practical training objective which approximates the functional ELBO using finite measurement sets and the spectral Stein gradient estimator. With fBNNs, we can specify priors entailing rich structures, including Gaussian processes and implicit stochastic processes. Empirically, we find fBNNs extrapolate well using various structured priors, provide reliable uncertainty estimates, and scale to large datasets.
研究动机与目标
- 解释为何权重空间先验与函数之间难以建立联系以及为何函数空间变分推断有帮助。
- 定义功能性 ELBO(fELBO)并展示随机过程之间的 KL 发散等于有限输入集合边际 KL 的上确界(定理 1)。
- 提出一个使用有限测量集和谱 Stein 梯度估计器(SSGE)的实用训练目标。
- 演示 fBNNs 如何利用结构化先验(例如高斯过程、隐式过程)并扩展到大规模数据集。
- 展示在外推、不确定性量化和上下文赌博性能方面的实证收益。
提出的方法
- 定义一个对函数的随机过程先验 p 和一个由带有随机权重/输入的神经网络实现的变分后验 q。
- 公式化功能性 ELBO:L(q)=E_q[log p(D|f)] - KL[q||p],其中 KL 是在随机过程之间的 KL,作为有限测量集边际的上确界来计算(定理 1)。
- 通过对测量集的边际 KL 以及光谱 Stein 梯度估计器(SSGE)进行采样,来近似功能性 KL 梯度。
- 采用类似 GAN 的极小极大框架,通过对抗测量集或基于采样的目标来优化 fELBO(方程 6-7)。
- 提供算法(算法 1),对样本测量点和函数样本进行采样,计算似然梯度,并使用 SSGE 来近似 KL 梯度。
- 允许显式或隐式随机过程先验(包括 GP 与分段函数先验),并为如 Thompson 取样等任务启用显式后验函数样本。
实验结果
研究问题
- RQ1变分推断是否可以直接在函数空间进行,以实现比权重空间先验更丰富的先验?
- RQ2在实践中如何为 fBNNs 计算或近似随机过程之间的 KL 发散?
- RQ3具有结构化先验的 fBNNs 在外推和提供可靠的不确定性方面是否优于权重空间的 BNN?
- RQ4fBNNs 能否在大规模数据集上扩展,同时保持良好的预测性能和不确定性校准?
- RQ5fBNNs 是否能够为如 Thompson 取样或预测熵搜索等任务提供有用的函数后验样本?
主要发现
- fBNNs 在包含 GP 形似和隐式先验的结构化先验下外推能力强。
- fBNNs 提供可靠的不确定性估计并可扩展到大规模数据集。
- 在具有周期结构的外推任务中,fBNNs 与对应核的 GP 先验相当,并且优于权重空间 BBB 基线。
- 在小规模回归基准上,fBNNs 在 RMSE 和对数似然上领先于 BBB 和 Noisy K-FAC(若干数据集上)。
- 在大规模数据集上,fBNNs 实现了有竞争力的 RMSE 和对数似然,展示了可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。