Skip to main content
QUICK REVIEW

[论文解读] Truncated Variational Expectation Maximization

Jörg Lücke|arXiv (Cornell University)|Oct 10, 2016
Bayesian Methods and Mixture Models被引用 3
一句话总结

本文提出截断变分期望最大化(TV-EM),一种新颖的变分EM框架,该框架使用截断分布作为变分近似——即在状态空间的子集内与精确后验成比例,其余位置为零。通过将这些子集视为可学习参数,TV-EM 实现了对变分下界的有效、单调优化,同时在标准EM与硬EM之间实现插值,为两者提供了一种更精确且计算高效的替代方案。

ABSTRACT

We derive a novel variational expectation maximization approach based on truncated posterior distributions. Truncated distributions are proportional to exact posteriors within subsets of a discrete state space and equal zero otherwise. The treatment of the distributions' subsets as variational parameters distinguishes the approach from previous variational approaches. The specific structure of truncated distributions allows for deriving novel and mathematically grounded results, which in turn can be used to formulate novel efficient algorithms to optimize the parameters of probabilistic generative models. Most centrally, we find the variational lower bounds that correspond to truncated distributions to be given by very concise and efficiently computable expressions, while update equations for model parameters remain in their standard form. Based on these findings, we show how efficient and easily applicable meta-algorithms can be formulated that guarantee a monotonic increase of the variational bound. Example applications of the here derived framework provide novel theoretical results and learning procedures for latent variable models as well as mixture models. Furthermore, we show that truncated variation EM naturally interpolates between standard EM with full posteriors and EM based on the maximum a-posteriori state (MAP). The approach can, therefore, be regarded as a generalization of the popular `hard EM' approach towards a similarly efficient method which can capture more of the true posterior structure.

研究动机与目标

  • 为具有离散隐变量的概率生成模型开发一种比标准EM和硬EM更高效、更准确的替代方法。
  • 通过引入截断分布作为变分近似,解决现有变分EM方法的局限性。
  • 提供一个数学上严谨的框架,确保在优化过程中变分下界单调递增。
  • 将标准EM、硬EM和变分EM等现有方法统一并推广到一个统一的原理性框架下。
  • 通过利用截断分布实现结构化稀疏性,使隐变量模型中的实际、可扩展的推理与学习成为可能。

提出的方法

  • 提出在状态空间子集内与真实后验成比例、其余位置为零的截断变分分布。
  • 将这些截断分布的支持集视为可学习参数,从而实现对模型参数和变分支持集的联合优化。
  • 推导出在截断分布下变分下界(自由能)的简洁且可高效计算的表达式。
  • 证明标准EM中模型参数的更新方程在截断变分框架下依然成立。
  • 提出一种元算法,通过使用截断后验的迭代E步与M步,保证变分下界单调递增。
  • 引入部分E步与辅助分布,以处理零概率状态的情形,确保在同时存在正概率与零概率分布的混合情况下仍能收敛。

实验结果

研究问题

  • RQ1如何在保持准确性的前提下,使变分EM在具有离散隐变量的模型中更加高效?
  • RQ2截断分布能否作为EM中全后验与MAP近似的一种原则性替代方案?
  • RQ3在使用截断分布时,能否为变分下界提供数学保证?
  • RQ4所提出的框架如何与现有方法(如标准EM与硬EM)关联并实现泛化?
  • RQ5当某些变分分布包含零概率状态时,该框架是否仍能支持变分下界的单调优化?

主要发现

  • 截断分布的变分下界具有简洁且可高效计算的表达式,可实现快速优化。
  • 该框架保证在优化过程中变分下界单调递增,确保收敛至局部最大值。
  • 当每个隐状态子集仅包含MAP状态时,硬EM被正式作为TV-EM的一个特例所恢复。
  • 证明了对数似然与截断自由能之间的差值等于截断变分分布与真实后验之间KL散度的总和。
  • 该方法自然地在标准EM(全后验)与硬EM(MAP状态)之间实现插值,提供了准确性与效率之间的连续权衡。
  • 该理论框架适用于任何具有离散隐变量的有向图模型,包括深度生成模型和时间序列模型等复杂模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。