[论文解读] Sandwiching the marginal likelihood using bidirectional Monte Carlo
本文提出双向蒙特卡洛(BDMC),一种通过结合前向与反向退火重要性采样,计算边缘似然紧致随机边界的方法。该方法可在模拟数据上实现精确、可定量验证的边缘似然估计,揭示出在所测试的估计器中,AIS、SMC 和 NS 表现最为可靠,而似然加权法与 BIC 则始终不准确。
Computing the marginal likelihood (ML) of a model requires marginalizing out all of the parameters and latent variables, a difficult high-dimensional summation or integration problem. To make matters worse, it is often hard to measure the accuracy of one's ML estimates. We present bidirectional Monte Carlo, a technique for obtaining accurate log-ML estimates on data simulated from a model. This method obtains stochastic lower bounds on the log-ML using annealed importance sampling or sequential Monte Carlo, and obtains stochastic upper bounds by running these same algorithms in reverse starting from an exact posterior sample. The true value can be sandwiched between these two stochastic bounds with high probability. Using the ground truth log-ML estimates obtained from our method, we quantitatively evaluate a wide variety of existing ML estimators on several latent variable models: clustering, a low rank approximation, and a binary attributes model. These experiments yield insights into how to accurately estimate marginal likelihoods.
研究动机与目标
- 为复杂模型中评估机器学习估计器,解决缺乏可靠真实边缘似然估计值的问题。
- 开发一种方法,在高概率下提供真实对数边缘似然的随机上界与下界。
- 利用具有已知真实值的模拟数据,实现对现有边缘似然估计器的定量基准测试。
- 识别在不同潜变量模型中表现可靠的估计器,如 AIS、SMC 或 NS。
- 通过提供边缘似然估计的严格评估框架,支持更优推断算法的开发。
提出的方法
- 提出双向蒙特卡洛(BDMC),通过正向与反向运行标准重要性采样算法(如 AIS、SMC),生成对数边缘似然的随机下界与上界。
- 使用退火重要性采样(AIS)或序贯蒙特卡洛(SMC)通过从一系列中间分布中采样,生成随机下界。
- 通过从精确后验样本开始反向运行相同算法,生成随机上界,实质上是将过程反向执行。
- 真实对数边缘似然几乎必然被夹在两个边界之间,且随着计算量增加,边界间隙逐渐缩小。
- 将该方法应用于聚类、低秩逼近和二值属性等模型的模拟数据,实现真实值估计。
- 利用所得边界作为黄金标准,评估其他机器学习估计器(如嵌套采样、调和平均法、BIC)的准确性。
实验结果
研究问题
- RQ1如何在真实值不可计算的模型中,获得可靠且可定量验证的边缘似然估计?
- RQ2在多种潜变量模型中,现有边缘似然估计器(如 AIS、SMC、嵌套采样、调和平均法、BIC)中哪些表现准确?
- RQ3双向蒙特卡洛是否能仅使用模拟数据,以高概率可靠地界定真实边缘似然?
- RQ4如退火调度或变量折叠等算法选择,如何影响边缘似然估计的准确性?
- RQ5不同估计器在多大程度上系统性地高估或低估真实对数边缘似然?这种偏差能否通过 BDMC 检测?
主要发现
- 双向蒙特卡洛成功生成了对数边缘似然的随机上界与下界,随着计算量增加,边界收敛至真实值,从而实现高置信度的真实值估计。
- AIS 在聚类模型上分别于 16.5 分钟内实现 RMSE 7.5 nats,15.1 分钟内实现 RMSE 9.0 nats,表明其在计算量增加时表现强劲。
- SMC 分别在 20.5 分钟和 69 分钟内实现 RMSE 11.9 和 4.7 nats,表明收敛较慢但最终趋于准确。
- 嵌套采样(NS)表现出高方差,在计算资源有限时被 AIS 和 SMC 超越。
- 似然加权法与调和平均估计器始终产生不准确估计,后者甚至在高置信度下也失败。
- BIC 在所有测试模型中均表现不可靠且系统性不准确,尽管其在模型选择中被广泛使用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。