Skip to main content
QUICK REVIEW

[论文解读] Bayesian network learning by compiling to weighted MAX-SAT

James Cussens|arXiv (Cornell University)|Jun 13, 2012
Bayesian Modeling and Causal Inference参考文献 8被引用 43
一句话总结

本文提出了一种新颖的方法,通过将结构学习问题编码为加权MAX-SAT问题,利用MaxWalkSat算法进行优化,以学习离散贝叶斯网络。通过将家族得分(BDeu)转换为软子句,并利用全序关系强制实现无环性,该方法在21个合成数据集上高效地发现了贝叶斯网络结构,其BDeu得分高于真实网络,包括包含60个变量和10,000个数据点的大规模实例。

ABSTRACT

The problem of learning discrete Bayesian networks from data is encoded as a weighted MAX-SAT problem and the MaxWalkSat local search algorithm is used to address it. For each dataset, the per-variable summands of the (BDeu) marginal likelihood for different choices of parents ('family scores') are computed prior to applying MaxWalkSat. Each permissible choice of parents for each variable is encoded as a distinct propositional atom and the associated family score encoded as a 'soft' weighted single-literal clause. Two approaches to enforcing acyclicity are considered: either by encoding the ancestor relation or by attaching a total order to each graph and encoding that. The latter approach gives better results. Learning experiments have been conducted on 21 synthetic datasets sampled from 7 BNs. The largest dataset has 10,000 datapoints and 60 variables producing (for the 'ancestor' encoding) a weighted CNF input file with 19,932 atoms and 269,367 clauses. For most datasets, MaxWalkSat quickly finds BNs with higher BDeu score than the 'true' BN. The effect of adding prior information is assessed. It is further shown that Bayesian model averaging can be effected by collecting BNs generated during the search.

研究动机与目标

  • 为解决从数据中学习最优贝叶斯网络结构的挑战,提出一种可扩展且高效的优化框架。
  • 将离散贝叶斯网络学习问题编码为加权MAX-SAT问题,以利用强大的局部搜索求解器。
  • 评估两种无环性强制策略(祖先关系编码与变量全序)的性能。
  • 评估先验信息的影响,并通过基于搜索的采样方法展示贝叶斯模型平均的可行性。

提出的方法

  • 为每个变量的潜在父节点集合预先计算家族得分(BDeu),并将其编码为MAX-SAT公式中的软加权单文字子句。
  • 将每个变量的合法父节点配置表示为SAT实例中的不同命题原子。
  • 通过在变量上引入全序关系来强制实现无环性,通过硬子句编码约束以防止出现环路。
  • 将MaxWalkSat局部搜索算法应用于加权CNF公式,以最大化软子句权重之和(即BDeu得分)。
  • 通过在搜索过程中收集多个高分网络,支持贝叶斯模型平均。
  • 在21个合成数据集上评估该方法,这些数据集源自7个贝叶斯网络,规模最大达60个变量和10,000个数据点。

实验结果

研究问题

  • RQ1贝叶斯网络结构学习能否被有效重构为加权MAX-SAT问题,以实现可扩展的优化?
  • RQ2在BDeu得分和收敛速度方面,哪种无环性编码策略——祖先关系或全序——表现更优?
  • RQ3在MAX-SAT编码中引入先验信息如何影响所学习贝叶斯网络的质量?
  • RQ4在搜索过程中通过收集多样化高分结构,能在多大程度上近似贝叶斯模型平均?

主要发现

  • 在大多数合成数据集中,MaxWalkSat持续找到了BDeu得分高于生成数据所用真实网络的贝叶斯网络结构。
  • 与祖先关系编码相比,使用全序关系强制无环性的方法在解的质量和收敛速度方面表现更优。
  • 该方法成功扩展到大规模数据集,在60个变量、10,000个数据点的网络上生成了包含19,932个原子和269,367个子句的加权CNF实例。
  • 引入先验信息提升了所学结构的质量,证明了该方法在整合领域知识方面的灵活性。
  • 通过在搜索过程中收集多个高分网络,有效近似了贝叶斯模型平均,验证了该方法在点估计之外的实用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。