QUICK REVIEW

[논문 리뷰] Deep Probabilistic Programming

Dustin Tran, Matthew D. Hoffman|arXiv (Cornell University)|2017. 01. 13.

Generative Adversarial Networks and Image Synthesis참고 문헌 41인용 수 83

한 줄 요약

Edward는 추론을 1급 시민으로 다루는 튜링 완전한 확률 프로그래밍 언어이며, 속도를 위해 TensorFlow와 통합되고, VI, MCMC, GANs를 포함한 모델링 및 추론 방법의 유연한 구성과 함께 작동합니다.

ABSTRACT

We propose Edward, a Turing-complete probabilistic programming language. Edward defines two compositional representations---random variables and inference. By treating inference as a first class citizen, on a par with modeling, we show that probabilistic programming can be as flexible and computationally efficient as traditional deep learning. For flexibility, Edward makes it easy to fit the same model using a variety of composable inference methods, ranging from point estimation to variational inference to MCMC. In addition, Edward can reuse the modeling representation as part of inference, facilitating the design of rich variational models and generative adversarial networks. For efficiency, Edward is integrated into TensorFlow, providing significant speedups over existing probabilistic systems. For example, we show on a benchmark logistic regression task that Edward is at least 35x faster than Stan and 6x faster than PyMC3. Further, Edward incurs no runtime overhead: it is as fast as handwritten TensorFlow.

연구 동기 및 목표

확률 프로그래밍을 강화하여 모델링과 추론을 하나로 통합하는 튜링 완전하고 구성 가능한 언어를 도입합니다.
추론 중에 모델 표현의 재사용을 가능하게 하여 표현적 변분법(variational) 및 GAN 기반 접근을 지원합니다.
계산 그래프(TensorFlow)와의 통합을 통해 수작업 코드와 비슷한 효율성을 달성합니다.
다양한 추론 방법(VI, MCMC, MAP, GAN 기반 방법)에 걸친 유연성 및 대규모 데이터에 대한 확장성을 보여줍니다.
사전 학습된 모델(Probability Zoo)과 공개 저장소를 통한 벤치마크를 제공합니다.

제안 방법

두 가지 핵심 구성 표현을 정의합니다: 그래프에 내재된 로그 밀도 및 샘플링을 가진 확률 변수로서의 개체와 사후 매개변수를 수정하는 1급 객체로서의 추론.
확률 프로그래밍을 계산 그래프에 삽입하여 풍부한 모델-결정적 하이브리드와 심층 구조를 가능하게 합니다.
대규모 데이터를 다루며 그래프 기반 추론을 유지하기 위해 확률적 제어 흐름 및 데이터 샘플링을 지원합니다.
모듈식 Inference 클래스를 통해 변분 추론, 몬테 카를로, MAP, GAN 기반 방법 등 다수의 추론 알고리즘에 대한 통합 프레임워크를 제공합니다.
추론이 모델링과 결합되도록 허용합니다(예: 번갈아 가며 E 단계와 M 단계가 있는 변분 EM).
실행 속도와 GPU 가속화를 위한 TensorFlow와의 엔드 투 엔드 통합을 시연합니다(예: 대규모 로지스틱 회귀에서 HMC).

실험 결과

연구 질문

RQ1추론을 1급 시민으로 다루는 방식으로 깊이 학습만큼이나 유연하고 효율적인 확률 프로그래밍 언어를 만들 수 있을까요?
RQ2확률 모델을 추론 및 서로 다른 구성 요소와 결합하여 변분 추론, VAE, GAN과 같은 진보를 지원할 수 있을까요?
RQ3TensorFlow와 같은 계산 그래프와의 통합으로 얻는 성능 및 확장성 이점은 무엇일까요?
RQ4동일한 모델에서 다양한 추론 전략이 VAEs 및 베이지안 RNN과 같은 작업에서 어떻게 비교될까요?
RQ5확률 프로그래밍 프레임워크에 확률적 제어 흐름과 데이터 샘플링을 효과적으로 통합할 수 있을까요?

주요 결과

모델 / 추론	실행 시간 (초)
Handwritten NumPy (1 CPU)	534
Stan (1 CPU)	171
PyMC3 (12 CPU)	30.0
Edward (12 CPU)	8.2
Handwritten TensorFlow (GPU)	5.0
Edward (GPU)	4.9

Edward는 벤치마크에서 기존 확률 시스템보다 상당한 속도 향상을 달성합니다(HMC 및 로지스틱 회귀 예시).
대규모 로지스틱 회귀 작업에서 Edward는 GPU에서 Stan보다 약 35배, PyMC3보다 약 6배 빠르며, 핸드-라이팅된 TensorFlow에 비해 런타임 오버헤드가 없습니다.
변분 및 몬테 카를로 추론 방법이 동일한 모델 내에서 구성되고 비교될 수 있어 서로 다른 목적 함수와 그래디언트 추정기를 자유롭게 실험할 수 있습니다.
모델링과 추론을 단일 계산 그래프 내부에서 통합할 수 있어 추론 및 모델링 구성 요소 간 표현 재사용이 가능해집니다.
Probability Zoo는 사전 학습된 모델 및 포스터리어 인자들의 커뮤니티 자원을 제공하여 연구 및 재현성을 가속합니다.
VAEs와 베이지안 RNN에 대한 실험은 구성 가능한 추론과 동적 제어 흐름으로 복잡한 확률 프로그램을 쉽게 구축할 수 있음을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.