Skip to main content
QUICK REVIEW

[论文解读] Stochastic Expectation Propagation

Yingzhen Li, José Miguel Hernández-Lobato|arXiv (Cornell University)|Jun 12, 2015
Gaussian Processes and Bayesian Inference参考文献 19被引用 29
一句话总结

本文提出随机期望传播(Stochastic Expectation Propagation, SEP),一种可扩展的贝叶斯推断方法,通过在数据小批量上使用随机、局部更新来更新全局后验近似,结合了期望传播(EP)的精度与变分推断(VI)的内存效率。SEP 相较于完整 EP 将内存消耗降低了 N 倍,同时在合成数据集和真实世界数据集(包括神经网络等大规模概率模型)上保持了具有竞争力的精度。

ABSTRACT

Expectation propagation (EP) is a deterministic approximation algorithm that is often used to perform approximate Bayesian parameter learning. EP approximates the full intractable posterior distribution through a set of local approximations that are iteratively refined for each datapoint. EP can offer analytic and computational advantages over other approximations, such as Variational Inference (VI), and is the method of choice for a number of models. The local nature of EP appears to make it an ideal candidate for performing Bayesian learning on large models in large-scale dataset settings. However, EP has a crucial limitation in this context: the number of approximating factors needs to increase with the number of data-points, N, which often entails a prohibitively large memory overhead. This paper presents an extension to EP, called stochastic expectation propagation (SEP), that maintains a global posterior approximation (like VI) but updates it in a local way (like EP). Experiments on a number of canonical learning problems using synthetic and real-world datasets indicate that SEP performs almost as well as full EP, but reduces the memory consumption by a factor of $N$. SEP is therefore ideally suited to performing approximate Bayesian learning in the large model, large dataset setting.

研究动机与目标

  • 为解决大规模贝叶斯学习中期望传播(EP)的高昂内存开销问题,其中局部近似因子的数量与数据点数 N 呈线性关系。
  • 在避免其内存瓶颈的同时,保留 EP 的高精度,尤其是在具有非光滑似然函数的模型中。
  • 开发一种方法,保持全局后验近似(如变分推断),但通过基于数据子采样的局部计算进行更新(如 EP),从而实现可扩展性。
  • 证明所提出的算法——随机 EP(SEP)——在真实世界和合成数据集上,实现与完整 EP 相当的性能,同时显著降低内存使用。

提出的方法

  • SEP 维护一个全局后验近似 q(θ),通过从随机小批量数据中获得的随机估计进行迭代优化,而非为每个数据点存储单独的因子。
  • 在每次迭代中,选择一个数据小批量,并对全局近似执行类似 EP 的局部更新,模拟 EP 的局部优化过程,但无需存储每个数据点的因子。
  • 该算法采用阻尼更新以稳定收敛,类似于随机变分推断(SVI),确保优化过程的鲁棒性。
  • SEP 可自然推广至幂 EP(PEP)框架,从而适用于具有潜变量和复杂似然函数的模型。
  • 该方法支持对近似粒度的控制,并可扩展以使用数据分区策略实现更细粒度的更新。
  • 它利用矩匹配和局部近似高效更新全局分布,避免了存储 N 个独立因子的需求。

实验结果

研究问题

  • RQ1我们能否在避免 EP 的 O(N) 内存开销的同时,实现 EP 的高精度?
  • RQ2是否可能在基于数据子采样的真正局部更新中保持全局后验近似,如同 EP 所做?
  • RQ3在真实世界和合成数据集上,SEP 的性能与完整 EP 和 ADF 相比,在精度和内存效率方面如何?
  • RQ4SEP 是否能有效应用于复杂模型(如概率神经网络,例如概率反向传播)和大规模数据集?
  • RQ5小批量大小和更新阻尼对算法收敛性和稳定性有何影响?

主要发现

  • 在多个 UCI 回归数据集(包括 Kin8nm、Naval、Power、Protein、Wine 和 Year)上,SEP 的测试 RMSE 和对数似然值与完整 EP 相当。
  • 在 Protein 数据集上,SEP 将内存使用从 EP 的 694 MB 降低至显著更低的水平,实现了 N 倍的内存缩减。
  • 在 Year 数据集上,SEP 将内存使用从 EP 的 65,107 MB 降低至可扩展水平,证实了 N 倍的内存优势。
  • 在概率反向传播实验中,SEP 在某些情况下优于 ADF,且在精度上与 EP 相当,但内存使用远低于 EP。
  • ADF 在 PBP 设置中通常优于 EP,表明 ADF 的全局更新与矩近似之间的相互作用可能具有优势,但 SEP 仍提供了更优的精度与内存权衡。
  • 该方法在贝叶斯逻辑回归和高斯混合模型上也表现出具有竞争力的性能,证实了其在各类模型中的通用适用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。