Skip to main content
QUICK REVIEW

[论文解读] Black-Box Alpha Divergence Minimization

José Miguel Hernández-Lobato, Yingzhen Li|arXiv (Cornell University)|Nov 10, 2015
Gaussian Processes and Bayesian Inference参考文献 25被引用 41
一句话总结

该论文提出 Black-Box Alpha (BB-α),一种可扩展的近似推理方法,通过随机梯度下降最小化 α-散度。借助自动微分和蒙特卡洛近似,BB-α 实现了对复杂模型的黑箱应用,在神经网络和回归任务中优于标准变分贝叶斯(α→0)和期望传播(α=1),尤其在 α=0.5 时表现更优。

ABSTRACT

Black-box alpha (BB-$\\alpha$) is a new approximate inference method based on the minimization of $\\alpha$-divergences. BB-$\\alpha$ scales to large datasets because it can be implemented using stochastic gradient descent. BB-$\\alpha$ can be applied to complex probabilistic models with little effort since it only requires as input the likelihood function and its gradients. These gradients can be easily obtained using automatic differentiation. By changing the divergence parameter $\\alpha$, the method is able to interpolate between variational Bayes (VB) ($\\alpha \ ightarrow 0$) and an algorithm similar to expectation propagation (EP) ($\\alpha = 1$). Experiments on probit regression and neural network regression and classification problems show that BB-$\\alpha$ with non-standard settings of $\\alpha$, such as $\\alpha = 0.5$, usually produces better predictions than with $\\alpha \ ightarrow 0$ (VB) or $\\alpha = 1$ (EP).

研究动机与目标

  • 开发一种可扩展的黑箱推理方法,避免传统期望传播在内存占用和收敛性方面的问题。
  • 在无需解析能量函数形式的前提下,使幂期望传播(通过 α-散度最小化)可应用于大规模和复杂的概率模型。
  • 提供一个统一框架,实现从变分贝叶斯(α→0)到期望传播(α=1)的插值,并提升预测性能。
  • 通过可微分能量函数和随机梯度下降,确保收敛性和可扩展性。
  • 通过实证验证,非标准 α 值(如 α=0.5)的预测性能优于 α=0 或 α=1。

提出的方法

  • BB-α 最小化近似分布 q 与真实后验 p(θ|D) 之间的 α-散度,使用源自幂期望传播的参数化能量函数。
  • 该方法通过蒙特卡洛近似估计 α-散度目标中不可计算的期望,从而实现黑箱应用。
  • 通过自动微分计算目标函数的梯度,支持端到端的随机梯度下降优化。
  • 该算法通过避免因子级存储,实现内存高效,与标准 EP 不同。
  • 支持任意 α ∈ (0,1),其中 α→0 时恢复变分贝叶斯,α=1 时恢复类似 EP 的行为。
  • 能量函数解析可计算且可微,从而提供收敛性保证并实现高效优化。

实验结果

研究问题

  • RQ1能否使 α-散度最小化在具有不可计算能量函数的复杂模型上实现可扩展性和黑箱应用?
  • RQ2BB-α 在预测准确性上是否优于标准变分贝叶斯(α→0)和期望传播(α=1)?
  • RQ3α 的选择如何影响不同模型和数据集上的预测性能?
  • RQ4在目标函数的蒙特卡洛近似中,梯度偏差与方差之间的权衡如何?
  • RQ5BB-α 能否在无需双重循环过程的情况下,通过随机梯度下降实现高效优化?

主要发现

  • 在 probit 回归和神经网络任务中,BB-α 在 α=0.5 时的预测性能始终优于变分贝叶斯(α→0)和 EP(α=1)。
  • 在波士顿房价数据集上,α=0.5 时的平均测试 RMSE 显著低于 α=1.0 或 α=10⁻⁶ 时的值。
  • BB-α 中的梯度偏差随蒙特卡洛样本数 K 增加而迅速降低,在 K=10 时已接近零。
  • 梯度估计的标准差保持较高水平(≈12–14),但比偏差大几个数量级,表明偏差在实际中可忽略。
  • 在 K=10 时,α=0.5 的偏差仅为 0.0013,而 α=1.0 时为 0.0077,表明梯度估计对 α 选择的敏感性较低。
  • BB-α 在小规模和大规模数据集上均实现了最先进水平的预测性能,展现出良好的可扩展性和鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。