[논문 리뷰] Deep Amortized Inference for Probabilistic Programs
이 논문은 신경망 기반 가이드 프로그램을 사용하여 확률적 프로그램에 대한 딥 암시적 추론 프레임워크를 제안한다. 여기서 매개변수화된 가이드 프로그램은 여러 추론 작업 간의 공유 구조를 활용하여 사후 분포를 근사한다. 이 방법은 경사 하강 최적화를 사용하여 가이드를 훈련시켜 베이지안 네트워크, 토픽 모델, 딥 생성 모델에서 빠르고 정확한 추론을 가능하게 하며, 전통적인 샘플링 기반 방법에 비해 상당한 속도 향상을 제공한다.
Probabilistic programming languages (PPLs) are a powerful modeling tool, able to represent any computable probability distribution. Unfortunately, probabilistic program inference is often intractable, and existing PPLs mostly rely on expensive, approximate sampling-based methods. To alleviate this problem, one could try to learn from past inferences, so that future inferences run faster. This strategy is known as amortized inference; it has recently been applied to Bayesian networks and deep generative models. This paper proposes a system for amortized inference in PPLs. In our system, amortization comes in the form of a parameterized guide program. Guide programs have similar structure to the original program, but can have richer data flow, including neural network components. These networks can be optimized so that the guide approximately samples from the posterior distribution defined by the original program. We present a flexible interface for defining guide programs and a stochastic gradient-based scheme for optimizing guide parameters, as well as some preliminary results on automatically deriving guide programs. We explore in detail the common machine learning pattern in which a 'local' model is specified by 'global' random values and used to generate independent observed data points; this gives rise to amortized local inference supporting global model learning.
연구 동기 및 목표
- 확률적 프로그램에서 사후 추론의 계산 비용이 너무 높아지는 문제, 특히 비용이 많이 드는 샘플링 기반 방법을 사용할 경우를 해결하기 위해.
- 다양한 쿼리에 걸쳐 진짜 사후 분포를 근사할 수 있는 재사용 가능한 가이드 프로그램을 학습시켜 더 빠른 추론을 가능하게 하기 위해.
- 신경망을 구조화된 가이드 프로그램 프레임워크에 통합함으로써 기존의 변분 추론 접근법을 통합하고 확장하기 위해.
- mapData 추상화를 사용해 국소적 추론을 독립적인 데이터 포인트들에 걸쳐 암시적으로 처리함으로써 글로벌 모델 학습을 효율적으로 지원하기 위해.
- 확률적 프로그래밍 언어에서 가이드 프로그램을 정의하고 최적화하기 위한 유연하고 미분 가능한 인터페이스를 제공하기 위해.
제안 방법
- 원본 확률적 프로그램과 동일한 제어 흐름을 가지지만 데이터 흐름은 다름을 특징으로 하며, 신경망을 사용해 데이터 흐름을 매개변수화하는 가이드 프로그램을 구성한다.
- 가이드를 최적화하기 위해 확률적 경사 하강법을 사용하여 증거 하한 경계(ELBO)를 최소화함으로써 가이드 매개변수의 엔드 투 엔드 훈련을 가능하게 한다.
- 글로벌 모델 변수와 로컬 데이터 특화 변수를 분리하기 위해 새로운 mapData 구문을 도입하여 미니배치 처리와 기울기 추정의 분산 감소를 가능하게 한다.
- 이 방법은 이산 및 연속 랜덤 변수를 모두 지원하며, 이산 잠복 변수에서의 훈련 안정성을 높이기 위해 분산 감소 기법을 적용한다.
- 이 프레임워크는 기존의 PPL 워크플로우와 통합이 가능한 웹PPL 확장 프로그램으로 구현되어 있다.
- 가이드 내부의 신경망 구성 요소에 대한 기울기 기반 최적화를 허용하기 위해 확률적 계산 그래프를 통해 역전파를 사용하여 가이드를 훈련시킨다.
실험 결과
연구 질문
- RQ1신경망 기반 가이드 프로그램이 확률적 프로그램에서 사후 분포를 효율적이고 정확하게 근사할 수 있는가?
- RQ2독립적이고 동일하게 분포된(IID) 데이터 포인트를 가진 모델, 예를 들어 토픽 모델과 딥 생성 모델에 대해 암시적 추론을 효과적으로 적용할 수 있는가?
- RQ3공유된 제어 흐름을 가지지만 신경망을 통해 학습 가능한 데이터 흐름을 가진 가이드가 기존의 샘플링 기반 추론에 비해 속도와 정확도 측면에서 얼마나 뛰어난가?
- RQ4제안된 프레임워크가 모델 매개변수와 가이드 매개변수를 통합된 훈련 절차에서 동시에 최적화할 수 있는가?
- RQ5이산 잠복 변수를 가진 가이드를 최적화할 때 기울기 추정의 분산을 어떻게 줄일 수 있는가?
주요 결과
- 제안된 딥 암시적 추론 프레임워크는 대규모 데이터셋에서 반복적인 추론 쿼리가 발생할 경우 기존의 MCMC 및 SMC 방법에 비해 상당한 속도 향상을 달성한다.
- mapData 구조를 사용함으로써 효율적인 미니배치 처리와 분산 감소가 가능해져 가이드 최적화의 훈련 안정성과 수렴 속도가 향상된다.
- 시스템은 베이지안 네트워크, 토픽 모델, 딥 생성 모델에 대해 가이드 프로그램을 성공적으로 학습시켜 다양한 모델 유형에서 정확한 사후 분포 근사를 보여주었다.
- 글로벌 모델 매개변수와 로컬 추론 가이드의 공동 학습을 지원함으로써 더 나은 가이드가 글로벌 모델 학습을 향상시키는 순환적 효과를 만들어 냈다.
- 기준 모델에서의 성능 평가 결과, 신경망 기반 가이드 추론이 표준 변분 추론 기준보다 경쟁력 있는 성능을 보이며, 정확도 면에서 이를 충족하거나 초월하는 것으로 나타났다.
- 초기 결과에서는 가이드 네트워크가 다양한 데이터 포인트 간에 일반화되어 있음을 확인했으며, 이는 각 쿼리별 재계산이 필요로 하는 양을 줄이고 테스트 시 빠른 추론을 가능하게 했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.