Skip to main content
QUICK REVIEW

[论文解读] Scalable Algorithms for Approximate DNF Model Counting

Burkhardt, Paul, David G. Harris|arXiv (Cornell University)|Jan 15, 2026
Bayesian Modeling and Causal Inference被引用 0
一句话总结

该论文提出一种新的带自适应停止和短路判定的蒙特卡洛算法,用于近似 DNF 模型计数,具备 PAC 保证,并且在可扩展到百万变量的问题上优于此前的 FPRAS 方法。

ABSTRACT

Model counting of Disjunctive Normal Form (DNF) formulas is a critical problem in applications such as probabilistic inference and network reliability. For example, it is often used for query evaluation in probabilistic databases. Due to the computational intractability of exact DNF counting, there has been a line of research into a variety of approximation algorithms. These include Monte Carlo approaches such as the classical algorithms of Karp, Luby, and Madras (1989), as well as methods based on hashing (Soos et al. 2023), and heuristic approximations based on Neural Nets (Abboud, Ceylan, and Lukasiewicz 2020). We develop a new Monte Carlo approach with an adaptive stopping rule and short-circuit formula evaluation. We prove it achieves Probably Approximately Correct (PAC) learning bounds and is asymptotically more efficient than the previous methods. We also show experimentally that it out-performs prior algorithms by orders of magnitude, and can scale to much larger problems with millions of variables.

研究动机与目标

  • 在概率推断、数据库和可靠性中说明可扩展的近似 DNF 计数的需求。
  • 开发一种带自适应停止和短路评估的新蒙特卡洛方法。
  • 提供理论上的 PAC 保证并将渐近成本与先前方法进行比较。
  • 演示对包含数百万变量的非常大规模问题实例的经验可扩展性。

提出的方法

  • 引入 Lazy Monte Carlo Sampling 通过采样一个子句及部分赋值来估计 DNF 模型比值。
  • 开发 L-KLM:一种对 KLM 的懒惰采样变体,通过延迟变量赋值来减少采样(算法 1)。
  • 给出带自适应停止规则的主算法并采用固定子句顺序以提高内存局部性(算法 2)。
  • 使用置换生成过程 P1 将启发式和随机子句顺序混合,以提升性能。
  • 证明 PAC 型保证并推导时间、随机性和空间界限(定理 1、4、5、6)。
  • 实现并在合成 DNFs 上对 Pepin、KLM、L-KLM 和 Neural#DNF 进行基准测试。

实验结果

研究问题

  • RQ1带有自适应停止与短路的蒙特卡洛方法能为 DNF 模型计数提供 PAC 保证吗?
  • RQ2固定子句置换的重用如何影响内存局部性与运行时间,相对于完全随机的方法?
  • RQ3与先前的 FPRAS 方法相比,新算法的渐近时间、随机性与空间复杂度是多少?
  • RQ4新方法在包含数百万变量与子句的 DNFs 上的可扩展性如何?

主要发现

  • 所提出的主算法在满足一定条件下实现了 PAC 保证,期望工作量为 O(m w log(2/p) log(1/δ) / ε^2),随机复杂性为 O(min{m log(2/p), n/p} log(1/δ) / ε^2)。
  • L-KLM 通过对变量进行懒惰赋值进一步减少采样量,获得比 KLM 更好的可扩展性和更低常数。
  • 实证结果显示新方法在现有最先进的 FPRAS 方法中具有更好的性能,在变量数量超过 10^6 的问题上也能扩展,速度常常与 Neural#DNF 相当。
  • 该方法得益于随机性使用减少、固定子句顺序提升内存局部性以及对子句检查的有效短路。
  • 在合成 DNFs 的实验表明,在紧凑的 PAC 参数(ε、δ)下具有强烈的扩展性和准确性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。