QUICK REVIEW

[논문 리뷰] Scalable Algorithms for Approximate DNF Model Counting

Burkhardt, Paul, David G. Harris|arXiv (Cornell University)|2026. 01. 15.

Bayesian Modeling and Causal Inference인용 수 0

한 줄 요약

본 논문은 근사 DNF 모델 카운팅을 위한 적응적 중지 및 단축(short-circuiting) 기법이 포함된 새로운 몬테카를로 알고리즘을 제안하고, PAC 보장을 달성하며 초기 FPRAS 방법보다 성능이 우수하고 백만 변수 규모의 문제까지 확장 가능하다.

ABSTRACT

Model counting of Disjunctive Normal Form (DNF) formulas is a critical problem in applications such as probabilistic inference and network reliability. For example, it is often used for query evaluation in probabilistic databases. Due to the computational intractability of exact DNF counting, there has been a line of research into a variety of approximation algorithms. These include Monte Carlo approaches such as the classical algorithms of Karp, Luby, and Madras (1989), as well as methods based on hashing (Soos et al. 2023), and heuristic approximations based on Neural Nets (Abboud, Ceylan, and Lukasiewicz 2020). We develop a new Monte Carlo approach with an adaptive stopping rule and short-circuit formula evaluation. We prove it achieves Probably Approximately Correct (PAC) learning bounds and is asymptotically more efficient than the previous methods. We also show experimentally that it out-performs prior algorithms by orders of magnitude, and can scale to much larger problems with millions of variables.

연구 동기 및 목표

확률적 추론, 데이터베이스 및 신뢰성에서 확장 가능한 근사 DNF 카운팅의 필요성을 동기부여한다.
적응적 중지와 단축 평가를 가진 새로운 몬테카를로 접근법을 개발한다.
이론적 PAC 보장을 제시하고 기존 방법과의 점근적 비용을 비교한다.
수백만 개의 변수에 걸친 매우 큰 문제 인스턴스에 대해 실험적으로 확장 가능성을 시연한다.

제안 방법

절과 부분 할당을 샘플링하여 DNF 모델 비를 추정하기 위한 Lazy Monte Carlo Sampling을 도입한다.
변수 할당 지연으로 샘플링을 축소한 KLM의 게으른 샘플링 변형인 L-KLM을 개발한다(Algorithm 1).
메모리 지역성 향상을 위한 고정된 절 순서와 적응적 중지 규칙을 갖춘 메인 알고리즘을 제시한다(Algorithm 2).
성능 향상을 위해 휴리스틱과 난수 절 순서를 혼합하는 순열 생성 절차 P1을 사용한다.
PAC-type 보장을 증명하고 시간, 난수성, 공간 한계를 도출한다(정리 1, 4, 5, 6).
합성 DNF에서 Pepin, KLM, L-KLM, Neural#DNF와 비교하여 구현 및 벤치마크를 수행한다.

실험 결과

연구 질문

RQ1PAC 보장을 갖는 적응적 중지와 단축으로 DNF 모델 카운팅에 몬테카를로 접근법이 가능할까?
RQ2고정된 절 순서를 재사용하는 것이 메모리 지역성 및 런타임에 미치는 영향은 완전히 무작위 접근법과 어떻게 비교될까?
RQ3새로운 알고리즘의 점근적 시간, 난수성, 공간 복잡도는 기존 FPRAS 방법에 비해 어떨까?
RQ4새로운 방법은 수백만 개의 변수와 절을 가진 DNF에 얼마나 확장 가능할까?

주요 결과

제안된 메인 알고리즘은 PAC 보장을 기대 작업 O(m w log(2/p) log(1/δ) / ε^2) 및 무작위 복잡도 O(min{m log(2/p), n/p} log(1/δ) / ε^2) 등의 조건하에서 달성한다.
L-KLM은 변수를 게으르게 할당하여 샘플링을 더 줄이고 KLM보다 확장성 및 상수 구현이 개선된다.
새로운 접근이 기존의 최첨단 FPRAS 방법을 능가하고 10^6 이상의 변수로 구성된 문제에 확장 가능하며 종종 Neural#DNF와 속도에서 대등하다.
방법은 난수 사용 감소, 고정된 절 순서로 인한 메모리 지역성 개선, 절 검사에 대한 효과적인 단축으로 이점을 얻는다.
합성 DNF에 대한 실험은 엄격한 PAC 매개변수(ε, δ) 하에서 강력한 확장성 및 정확성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.