QUICK REVIEW

[论文解读] Bayesian structure learning and sampling of Bayesian networks with the R package BiDAG

Polina Suter, Jack Kuipers|arXiv (Cornell University)|May 2, 2021

Bayesian Modeling and Causal Inference被引用 10

一句话总结

该论文介绍了 BiDAG R 包，用于使用高效的马尔可夫链蒙特卡洛（MCMC）方法进行贝叶斯网络中的贝叶斯结构学习与抽样。该方法提出了一种混合方法，结合基于约束的搜索空间缩减（通过 PC 算法或先验知识）与迭代顺序 MCMC 及分区 MCMC，实现了对包含数百个节点的大规模网络的可扩展推断。主要贡献在于即使在数据有限的情况下，也能实现准确、快速且可扩展的后验抽样与最大后验（MAP）结构学习，其在 DAG 发现方面的速度和准确性均优于传统方法。

ABSTRACT

The R package BiDAG implements Markov chain Monte Carlo (MCMC) methods for structure learning and sampling of Bayesian networks. The package includes tools to search for a maximum a posteriori (MAP) graph and to sample graphs from the posterior distribution given the data. A new hybrid approach to structure learning enables inference in large graphs. In the first step, we define a reduced search space by means of the PC algorithm or based on prior knowledge. In the second step, an iterative order MCMC scheme proceeds to optimize within the restricted search space and estimate the MAP graph. Sampling from the posterior distribution is implemented using either order or partition MCMC. The models and algorithms can handle both discrete and continuous data. The BiDAG package also provides an implementation of MCMC schemes for structure learning and sampling of dynamic Bayesian networks.

研究动机与目标

解决由于 DAG 数量超指数增长导致的大规模贝叶斯网络中贝叶斯结构学习的计算不可行性问题。
克服现有工具仅关注寻找单一最优图的局限性，这些工具在小样本或噪声数据下可能无法准确反映模型不确定性。
开发可扩展至数百个节点的高效 MCMC 算法，同时保持准确性与收敛速度。
提供一个灵活、开源的 R 包，支持离散与连续数据，并包含对动态贝叶斯网络的支持。
实现后验抽样与模型平均，以减少假阳性边，提升结构发现的鲁棒性。

提出的方法

采用混合结构学习方法：首先利用 PC 算法或先验知识定义一个缩减的搜索空间；其次，通过迭代顺序 MCMC 优化该受限空间以找到 MAP DAG。
实现两种 MCMC 方案：顺序 MCMC（基于节点顺序）与分区 MCMC（基于节点集合的划分），两者均可从后验分布中抽样。
使用按节点分解的评分函数：离散数据使用 BDe，连续数据使用 BGe，通过预计算的评分表实现高效计算。
通过预计算评分表将每次 MCMC 提案的评分复杂度从 O(n^{K+1}) 降低至 O(n² log n)，使该方法在大规模网络中可行。
引入收敛性诊断工具，并通过边的后验概率进行模型平均，仅保留后验概率 > 0.5 的边以减少假阳性。
支持一阶动态贝叶斯网络（DBNs），并集成 Rgraphviz 和 graph 包的可视化工具。

实验结果

研究问题

RQ1结合基于约束的搜索空间缩减与迭代顺序 MCMC 的混合 MCMC 方法，是否能在大规模网络中实现更快、更准确的 DAG 结构学习？
RQ2与 PC 或 GES 等单结构方法相比，通过顺序与分区 MCMC 进行后验抽样在准确性和假阳性控制方面表现如何？
RQ3边的后验概率（例如 > 0.5）在多大程度上能通过减少假阳性来改善模型选择，相较于仅依赖 MAP 图？
RQ4当网络规模与父节点集大小（K）增大时，顺序 MCMC 与分区 MCMC 的性能表现如何，尤其在 K 较大时？
RQ5BiDAG 包能否在样本量适中时，有效学习并从真实世界生物数据（如癌症亚型）中抽样结构？

主要发现

与 PC 和 GES 等成熟方法相比，迭代顺序 MCMC 在恢复真实 DAG 时收敛更快、准确性更高，尤其在噪声或稀疏数据条件下表现更优。
通过分区 MCMC 进行后验抽样并结合边阈值处理（后验概率 > 0.5）能显著减少假阳性边，同时保留大部分真正阳性边，优于仅依赖 MAP 图的选择方法。
对于 n = 100 个节点的网络，评分表预计算可将 MCMC 复杂度从 O(n^{K+1}) 降低至 O(n² log n)，即使在 K 达到 14 时仍可实现可行计算。
当 K > 7 时，评分表计算的运行时间变得不可行，但真实世界网络通常较稀疏（平均父节点集大小为 1.4），使该方法在大多数应用场景中具有实用性。
在 KIRP 和 KIRC 癌症亚型分析中，共识图（基于后验边概率）恢复了已知的生物相互作用，并揭示了新边（如 CCBL2–R3HDM1），显示出生物学相关性。
该包实现了对包含数百个节点的网络的后验抽样与模型平均，是首个实现大规模贝叶斯网络可扩展贝叶斯结构学习的 R 包。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。