Skip to main content
QUICK REVIEW

[论文解读] Expectation Maximization and Complex Duration Distributions for Continuous Time Bayesian Networks

Uri Nodelman, Christian R. Shelton|arXiv (Cornell University)|Jul 4, 2012
Bayesian Modeling and Causal Inference参考文献 17被引用 66
一句话总结

该论文通过整合期望最大化(EM)和结构化期望最大化(SEM)算法,将连续时间贝叶斯网络(CTBNs)扩展至部分观测数据的学习,支持使用相型分布——一种高度灵活的半参数模型,可近似任意持续时间分布。该方法显著提升了传统CTBNs和动态贝叶斯网络(DBNs)在建模真实寿命数据中复杂持续时间模式时的建模灵活性与性能。

ABSTRACT

Continuous time Bayesian networks (CTBNs) describe structured stochastic processes with finitely many states that evolve over continuous time. A CTBN is a directed (possibly cyclic) dependency graph over a set of variables, each of which represents a finite state continuous time Markov process whose transition model is a function of its parents. We address the problem of learning the parameters and structure of a CTBN from partially observed data. We show how to apply expectation maximization (EM) and structural expectation maximization (SEM) to CTBNs. The availability of the EM algorithm allows us to extend the representation of CTBNs to allow a much richer class of transition durations distributions, known as phase distributions. This class is a highly expressive semi-parametric representation, which can approximate any duration distribution arbitrarily closely. This extension to the CTBN framework addresses one of the main limitations of both CTBNs and DBNs - the restriction to exponentially / geometrically distributed duration. We present experimental results on a real data set of people's life spans, showing that our algorithm learns reasonable models - structure and parameters - from partially observed data, and, with the use of phase distributions, achieves better performance than DBNs.

研究动机与目标

  • 解决CTBNs和DBNs在建模非指数分布持续时间方面的局限性。
  • 实现从部分观测时间数据中学习CTBN的结构与参数。
  • 引入一种灵活的半参数化持续时间分布表示方法,采用相型分布。
  • 提升真实世界连续时间随机过程建模的准确性与预测性能。
  • 展示EM与SEM算法在学习具有丰富持续时间动态特性的复杂CTBNs方面的有效性。

提出的方法

  • 将期望最大化(EM)算法适配用于从部分观测数据中估计CTBN参数。
  • 扩展结构化期望最大化(SEM)算法,以从不完整的时间数据中学习CTBN的结构。
  • 引入相型分布作为灵活的半参数化表示,用于建模任意持续时间分布。
  • 将每个变量的转移强度建模为其父变量的函数,利用相型分布捕捉复杂的无记忆与有记忆动态。
  • 以隐性半马尔可夫过程为基础,在CTBN框架内实现相型建模。
  • 应用EM算法,通过在隐含状态轨迹上计算期望充分统计量,迭代优化参数估计。

实验结果

研究问题

  • RQ1EM与SEM算法能否有效适配于从部分观测的连续时间数据中学习CTBNs?
  • RQ2与指数分布或几何分布相比,相型分布是否能显著提升CTBNs中持续时间分布的建模能力?
  • RQ3在真实数据上,采用相型持续时间的扩展CTBN框架是否在预测准确性方面优于标准DBNs和CTBNs?
  • RQ4学习算法在不完整观测下,能否有效恢复CTBN的真实底层结构与参数?
  • RQ5相型分布在多大程度上能够更好地近似现实世界过程中复杂的非无记忆持续时间模式?

主要发现

  • EM与SEM算法成功从部分观测数据中学习CTBN的结构与参数,实现了稳健的模型归纳。
  • 相型分布使CTBN能够以任意精度近似任何持续时间分布,克服了指数分布/恒定风险率的限制。
  • 在真实寿命数据集上,采用相型持续时间的扩展CTBN模型显著优于标准DBNs与CTBNs。
  • 该模型能从不完整的时间数据中学习到有意义且可解释的结构,准确反映生存过程中真实的依赖关系。
  • 相型分布的使用使模型能够更准确地表示纵向健康数据中观察到的复杂非指数持续时间模式。
  • 实证结果表明,与使用指数持续时间的基线模型相比,所提方法在对数似然与预测准确性方面均有显著提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。