[논문 리뷰] Declarative Probabilistic Programming with Datalog
이 논문은 메트로폴리스-해스팅스, 지브스 샘플링, 하이브리드 파티클-마르코프 체인 몬테카를로 방법을 선형 시간 복잡도로 효율적으로 실행할 수 있도록 보장하는 스케일러블하고 조합 가능한 추론 프레임워크를 제공하는, 터미팅 완전한 고계수 확률 프로그래밍 언어인 Venture를 소개한다. 이는 기존 접근법에서 흔히 발생하는 제곱 시간 복잡도 문제를 해결한다. 이 프레임워크는 새로운 확률적 절차 인터페이스(SPI), 확률적 실행 트레이스(PET), 점진적 추론을 위한 스카피드, 그리고 스트로스틱 재생 알고리즘을 통해 사용자 정의 가능한 추론 전략을 지원한다.
Probabilistic programming languages are used for developing statistical models, and they typically consist of two components: a specification of a stochastic process (the prior), and a specification of observations that restrict the probability space to a conditional subspace (the posterior). Use cases of such formalisms include the development of algorithms in machine learning and artificial intelligence. We propose and investigate an extension of Datalog for specifying statistical models, and establish a declarative probabilistic-programming paradigm over databases. Our proposed extension provides convenient mechanisms to include common numerical probability functions; in particular, conclusions of rules may contain values drawn from such functions. The semantics of a program is a probability distribution over the possible outcomes of the input database with respect to the program. Observations are naturally incorporated by means of integrity constraints over the extensional and intensional relations. The resulting semantics is robust under different chases and invariant to rewritings that preserve logical equivalence.
연구 동기 및 목표
- 표현력 있는 모델링과 사용자 정의 가능한 추론을 동시에 지원하는 일반 목적의 확률 프로그래밍 시스템을 설계한다.
- 기존 추론 방법의 비효율성 — 특히 모델 복잡도에 따라 제곱 시간 복잡도로 증가하는 문제 — 를 해결한다.
- 통합된 추론 프레임워크 내에서 외부 모델과 러닝 likelihood 없는 시뮬레이터를 통합할 수 있도록 한다.
- MCMC와 변분 추론을 조합하는 하이브리드 추론 전략을 구성할 수 있는 조합 가능하고 확장 가능한 아키텍처를 제공한다.
- 다양한 응용 워크로드에 적합한 자동 추론과 전문가가 제어하는 추론 프로그래밍을 모두 지원한다.
제안 방법
- 기본적인 난수 변수를 커스터마이징된 제어 흐름, 고계수 절차, 잠재적 시뮬레이션 요청과 함께 봉인하는 데 사용되는 확률적 절차 인터페이스(SPI)를 도입한다.
- 프로그램 실행 중 조건부, 존재적, 교환 가능성을 포함한 의존성을 기록하는 데이터 구조로 확률적 실행 트레이스(PET)를 정의한다.
- 전역 추론을 일관된 국소적 하위 문제로 분할하는 스카피드 — PET의 분할 — 를 제안한다. 이를 통해 점진적 처리가 가능해진다.
- 조건부 독립 변수를 다시 방문하지 않고 스카피드 내 PET 조각을 수정하는 스트로스틱 재생 알고리즘을 개발한다. 이는 선형 시간 업데이트를 가능하게 한다.
- 재생을 활용해 메트로폴리스-해스팅스와 하이브리드 파티클-MCMC 방법에 대해 불변 전이 연산자를 구축한다.
- 조합 가능한 커널과 상태 기반 제안 선택을 통해 추론 프로그래밍을 지원함으로써 일반 목적의 추론 전략을 실현한다.
실험 결과
연구 질문
- RQ1확률 프로그래밍 시스템이 확장 가능한 스케일링과 함께 터미팅 완전한 모델링과 조합 가능한 효율적 추론 전략을 동시에 지원할 수 있는가?
- RQ2프로그램 구조의 변화에 대해 추론 알고리즘이 제곱 시간 비용을 유발하지 않고도 강건하게 유지될 수 있는가?
- RQ3스트로스틱 재생을 통해 MCMC 샘플링 중에 실행 트레이스에 대해 효율적이고 맥락에 의존하지 않는 업데이트를 수행할 수 있는가?
- RQ4러닝 likelihood 없는 시뮬레이터와 외부 모델을 확률적 추론 파이프라인에 네이티브로 통합할 수 있는가?
- RQ5MCMC와 변분 추론을 조합하는 하이브리드 추론 전략을 조합 가능하고 성능 보장이 되는 방식으로 구현할 수 있는가?
주요 결과
- 스트로스틱 재생은 모델 크기에 비례해 선형적으로 증가하는 추론 업데이트를 가능하게 하여 이전 접근법에서 흔히 발생하는 제곱 시간 복잡도 폭발을 피한다.
- 스카피드 기반의 실행 트레이스 분해는 국소적 의존성을 격리함으로써 효율적이고 점진적인 추론을 가능하게 한다.
- SPI는 외부 모델과 러닝 likelihood 없는 시뮬레이터를 커스터마이징된 제안과 잠재 변수 관리와 함께 원활하게 통합할 수 있도록 한다.
- 파티클-MCMC와 평균 장 변분 추론과 같은 하이브리드 추론 전략은 동일한 조합 가능한 커널 프레임워크를 사용해 실현할 수 있다.
- 이 프레임워크는 자동 추론과 전문가가 프로그래밍한 추론을 모두 지원하여 블랙박스에서 매우 최적화된 추론 전략에 이르는 스펙트럼을 제공한다.
- 실증 결과는 스트로스틱 재생이 동적 구조를 가진 복잡한 모델, 특히 부분적으로 교환 가능한 수열과 중첩된 확률적 과정을 포함하는 모델에서 추론 시간을 크게 단축시킴을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.