Skip to main content
QUICK REVIEW

[论文解读] Asymptotic Model Selection for Naive Bayesian Networks

Dmitry Rusakov, Dan Geiger|arXiv (Cornell University)|Dec 12, 2012
Bayesian Modeling and Causal Inference参考文献 20被引用 38
一句话总结

本文推导出具有两个隐状态和二值特征的朴素贝叶斯网络中边缘似然的闭式渐近公式,证明标准BIC评分在该模型中无效,原因在于其分层指数族结构——这与线性和弯曲指数族中BIC有效的情况形成对比。关键贡献在于提出了一种精确的渐近近似,以修正BIC在此类模型中的不足。

ABSTRACT

We develop a closed form asymptotic formula to compute the marginal likelihood of data given a naive Bayesian network model with two hidden states and binary features. This formula deviates from the standard BIC score. Our work provides a concrete example that the BIC score is generally not valid for statistical models that belong to a stratified exponential family. This stands in contrast to linear and curved exponential families, where the BIC score has been proven to provide a correct approximation for the marginal likelihood.

研究动机与目标

  • 解决在具有隐变量的朴素贝叶斯网络中模型选择时BIC评分的有效性问题。
  • 研究BIC近似是否适用于属于分层指数族的模型,而非线性或弯曲指数族。
  • 为具有两个隐状态和二值特征的特定类朴素贝叶斯网络推导边缘似然的闭式渐近公式。
  • 提供一个BIC失效的明确反例,从而挑战其在贝叶斯网络结构学习中的普遍适用性。

提出的方法

  • 在样本量较大的假设下,推导具有两个隐状态和二值特征的朴素贝叶斯网络的边缘似然渐近近似。
  • 将该模型分析为属于分层指数族,而该类族已知违反BIC有效性所依赖的正则性条件。
  • 使用二阶渐近展开计算边缘似然,重点关注与BIC不同的主导项。
  • 将推导出的公式与标准BIC评分进行比较,识别出由于模型的分层结构导致的结构性差异。
  • 应用渐近统计学和指数族理论的技术,推导出一种能反映模型奇异结构的闭式表达式。

实验结果

研究问题

  • RQ1BIC评分是否能为具有隐变量的朴素贝叶斯网络提供边缘似然的合理近似?
  • RQ2为何BIC评分在属于分层指数族的模型中即使在渐近意义上也失效?
  • RQ3能否为具有两个隐状态和二值特征的特定类朴素贝叶斯网络推导出边缘似然的闭式渐近公式?
  • RQ4在此类模型中,渐近边缘似然与BIC近似有何不同?

主要发现

  • 具有两个隐状态和二值特征的朴素贝叶斯网络不适用BIC评分,因为其属于分层指数族。
  • 推导出的边缘似然渐近公式与BIC评分系统性地偏离,表明BIC在此设定下可能高估或低估真实的边缘似然。
  • BIC在此类模型中失效的原因在于模型的奇异结构,该结构违反了标准BIC推导中所假设的正则性条件。
  • 本文提供了一个明确的反例,表明即使在渐近意义上,BIC在广泛使用的贝叶斯网络类别中也会失效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。