[论文解读] A Contrastive Divergence for Combining Variational Inference and MCMC
本文提出了变分对比分歧(VCD),一种新型分歧度量,通过将变分推断与马尔可夫链蒙特卡洛(MCMC)采样相结合,实现了变分推断的可 tractable 优化。通过使用MCMC步骤对初始变分分布进行精炼,并优化VCD目标函数,该方法在变分自编码器(VAEs)和逻辑矩阵分解等潜在变量模型中,相比标准变分推断及先前的MCMC-变分混合方法,实现了更优的预测性能。
We develop a method to combine Markov chain Monte Carlo (MCMC) and variational inference (VI), leveraging the advantages of both inference approaches. Specifically, we improve the variational distribution by running a few MCMC steps. To make inference tractable, we introduce the variational contrastive divergence (VCD), a new divergence that replaces the standard Kullback-Leibler (KL) divergence used in VI. The VCD captures a notion of discrepancy between the initial variational distribution and its improved version (obtained after running the MCMC steps), and it converges asymptotically to the symmetrized KL divergence between the variational distribution and the posterior of interest. The VCD objective can be optimized efficiently with respect to the variational parameters via stochastic optimization. We show experimentally that optimizing the VCD leads to better predictive performance on two latent variable models: logistic matrix factorization and variational autoencoders (VAEs).
研究动机与目标
- 为解决在MCMC采样后后验分布以隐式方式定义时,变分推断的优化挑战。
- 开发一种可计算、可微的优化目标,即使MCMC精炼后的分布密度不可计算,也能实现变分参数的随机优化。
- 通过利用MCMC精炼提升潜在变量模型的预测性能,同时保留变分推断的高效性与迁移学习优势。
- 提供一种有理论依据的分歧度量,其渐近收敛于对称KL分歧,并支持无偏梯度估计以实现优化。
提出的方法
- 提出变分对比分歧(VCD),一种衡量初始变分分布与其MCMC优化版本之间差异的分歧度量,而非变分后验与真实后验之间的差异。
- 使用固定数量的MCMC步骤(如HMC)对初始变分提议分布进行精炼,生成具有不可计算密度的隐式改进分布。
- 基于MCMC链的样本,推导出VCD梯度的无偏蒙特卡洛估计器,从而实现变分参数的随机优化。
- 通过随机梯度下降优化VCD目标函数,其中MCMC样本为变分参数的更新提供反馈。
- 采用对比学习训练策略:在当前变分分布上运行MCMC链的同时,最小化关于变分参数的VCD目标函数。
- 在迁移推断设置中应用该方法,即使用全局变分族快速近似每条观测的局部潜在变量后验。
实验结果
研究问题
- RQ1能否定义一种有理论依据的分歧度量,使得在MCMC采样隐式定义改进后验时,仍可优化变分参数?
- RQ2通过VCD目标函数将MCMC精炼与变分推断结合,是否能实现比标准变分推断或先前MCMC-变分混合方法更优的预测性能?
- RQ3MCMC步骤数量如何影响基于VCD的推断性能与计算成本?
- RQ4在MCMC步骤数量较少的情况下,VCD能否在不同模型和数据集上支持稳定且高效的优化?
- RQ5VCD是否为有效的分歧度量,其渐近行为是否收敛于初始变分分布与真实后验之间的对称KL分歧,从而在无限MCMC步骤极限下保证与标准变分推断的一致性?
主要发现
- 在MNIST和Fashion-MNIST数据集上,优化VCD目标函数相比标准变分推断和Hoffman(2017)的方法,显著提升了测试对数似然性能。
- 即使仅使用2步MCMC,基于VCD的方法也实现了高于标准变分推断的测试对数似然,证明了MCMC精炼带来的即时收益。
- 随着MCMC步骤数增加,性能单调提升,8步时达到最佳结果,证实了更长链的优越性。
- VCD算法的计算成本随MCMC步骤数线性增长,但尽管增加了额外计算,优化过程仍保持稳定,且略快于Hoffman(2017)的方法。
- VCD支持无偏梯度估计,可实现可靠的随机优化,且在不同模型和数据集上均表现稳健。
- VCD在无限MCMC步骤极限下,渐近收敛于初始变分分布与真实后验之间的对称KL分歧,确保了理论一致性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。