Skip to main content
QUICK REVIEW

[论文解读] Exact Subsampling MCMC

Matias Quiroz, Minh‐Ngoc Tran|arXiv (Cornell University)|Mar 27, 2016
Markov Chains and Monte Carlo Methods参考文献 23被引用 25
一句话总结

该论文提出了一种精确子采样MCMC方法,通过结合无偏似然估计与重要性采样校正,实现了计算效率与完整统计精度的平衡。该方法利用软下界和控制变量,确保似然估计为正且方差低,随后在绝对值上应用相关伪边缘MCMC,并通过低方差重要性采样校正符号。

ABSTRACT

Speeding up Markov Chain Monte Carlo (MCMC) for datasets with many observations by data subsampling has recently received considerable attention in the literature. Most of the proposed methods are approximate, and the only exact solution has been documented to be highly inefficient. We propose a simulation consistent subsampling method for estimating expectations of any function of the parameters using a combination of MCMC subsampling and the importance sampling correction for occasionally negative likelihood estimates in Lyne et al. (2015). Our algorithm is based on first obtaining an unbiased but not necessarily positive estimate of the likelihood. The estimator uses a soft lower bound such that the likelihood estimate is positive with a high probability, and computationally cheap control variables to lower variability. Second, we carry out a correlated pseudo marginal MCMC on the absolute value of the likelihood estimate. Third, the sign of the likelihood is corrected using an importance sampling step that has low variance by construction. We illustrate the usefulness of the method with two examples.

研究动机与目标

  • 解决现有精确子采样MCMC方法在大规模数据集上仍计算成本过高的低效问题。
  • 通过保留精确后验推断同时降低计算成本,克服近似子采样方法的局限性。
  • 开发一种方法,确保后验期望估计无偏,同时不牺牲计算可行性。
  • 通过控制变量和软下界最小化似然估计的方差,以提高采样效率。
  • 通过结合子采样与稳健的校正技术,使精确MCMC在大规模数据集上具有实际可应用性。

提出的方法

  • 使用软下界确保即使单个子样本产生负估计值,似然估计仍以高概率为正。
  • 利用控制变量构建无偏但可能为负的似然估计器,以降低估计过程中的方差。
  • 对似然估计的绝对值应用相关伪边缘MCMC,以保持细致平衡并确保收敛至正确的后验分布。
  • 通过设计为低方差的重要性采样步骤校正似然估计的符号。
  • 利用似然估计器的结构,在保持MCMC有效性的同时实现在大规模数据集上的高效计算。
  • 结合子采样与重要性采样校正,实现精确推断,同时避免全数据MCMC的计算负担。

实验结果

研究问题

  • RQ1能否设计一种精确子采样MCMC方法,在显著降低计算成本的同时保持统计精度?
  • RQ2如何在不引入偏差或高方差的情况下校正子采样产生的负似然估计?
  • RQ3控制变量与软下界在稳定并降低大规模数据集上似然估计方差方面发挥什么作用?
  • RQ4相关伪边缘MCMC能否有效应用于绝对似然估计,同时保持精确后验推断?
  • RQ5与现有近似和精确子采样MCMC方法相比,该方法在效率和准确性方面表现如何?

主要发现

  • 所提方法通过结合无偏似然估计与低方差重要性采样校正符号,实现了精确后验推断。
  • 软下界的应用确保似然估计以高概率为正,从而支持稳定的MCMC采样。
  • 控制变量显著降低了似然估计器的方差,提高了MCMC算法的效率。
  • 对绝对似然估计实施的相关伪边缘MCMC步骤保持了细致平衡,并确保收敛至正确的后验分布。
  • 对似然符号的重要性采样校正通过设计实现低方差,从而增强了整体采样效率。
  • 该方法在两个示例上得到实证验证,证明其在实际应用中的可行性及相对于现有精确与近似子采样方法的计算优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。