Skip to main content
QUICK REVIEW

[논문 리뷰] Automatic Variational Inference in Stan

Alp Kucukelbir, Rajesh Ranganath|arXiv (Cornell University)|2015. 06. 10.
Gaussian Processes and Bayesian Inference참고 문헌 12인용 수 71
한 줄 요약

이 논문은 스턴에서 변분 추론을 위한 자동 미분 변분 추론(ADVI)을 소개한다. 이는 확률적 모형과 데이터만 필요로 하는 자동화된 방법으로, 잠재 변수를 실수 공간으로 변환하고, 평균-장 가우시안 변분 가족을 사용하며, 자동 미분과 확률적 최적화를 활용함으로써 다양한 모형에서 확장 가능한 베이지안 추론을 가능하게 한다. 250,000장의 이미지와 같은 대규모 데이터셋에서 MCMC에 비해 수개의 주기적 속도 향상을 달성한다.

ABSTRACT

Variational inference is a scalable technique for approximate Bayesian inference. Deriving variational inference algorithms requires tedious model-specific calculations; this makes it difficult to automate. We propose an automatic variational inference algorithm, automatic differentiation variational inference (ADVI). The user only provides a Bayesian model and a dataset; nothing else. We make no conjugacy assumptions and support a broad class of models. The algorithm automatically determines an appropriate variational family and optimizes the variational objective. We implement ADVI in Stan (code available now), a probabilistic programming framework. We compare ADVI to MCMC sampling across hierarchical generalized linear models, nonconjugate matrix factorization, and a mixture model. We train the mixture model on a quarter million images. With ADVI we can use variational inference on any model we write in Stan.

연구 동기 및 목표

  • 확률 프로그래밍 프레임워크에서 변분 추론을 자동화하여, 모형 전용 변분 가족과 목적 함수의 도출이 필요 없도록 하는 것.
  • 공액성 가정이 필요 없이 비공액 및 계층 모형을 포함한 광범위한 미분 가능 확률 모형을 지원하는 것.
  • 자기 미분과 결합된 확률적 변분 추론을 통해 대규모 데이터셋에서의 확장 가능한 추론을 가능하게 하는 것.
  • 스턴 내부에서 플러그 앤 플레이 형식의 추론 솔루션을 제공하여, 스턴 언어로 작성된 어떤 모형이라도 변분 추론을 적용할 수 있도록 하는 것.
  • MCMC와 비교해 유사한 성능을 달성하면서도, 특히 대규모 데이터셋에서 수개의 주기적 속도 향상을 이루는 것.

제안 방법

  • 양의 변수에 대해 로그 변환과 같은 단조 증가 변환을 사용하여 잠재 변수를 실수 공간으로 변환함으로써, 표준 다변수 정규 변분 가족의 사용을 가능하게 한다.
  • 변환된 공간에서 평균-장 가우시안 근사를 사용하여, 원래 매개변수 공간에서 비정규 분포 근사를 유도한다.
  • 변분 하한(ELBO)의 변분 매개변수에 대한 기울기를 계산하기 위해 자동 미분을 활용함으로써 효율적인 최적화를 가능하게 한다.
  • 미니배치를 사용한 확률적 최적화를 적용하여 대규모 데이터셋에 스케일링되며, ELBO의 샘플링 편향을 보정하기 위해 스케일링 인자를 사용한다.
  • 스턴의 확률 프로그래밍 프레임워크에 이 방법을 통합하여, 사용자가 스턴 언어로 모형을 작성하고 추가 구현 없이도 자동으로 ADVI를 적용할 수 있도록 한다.
  • 해석적 도함수 계산이 필요 없이 재구성 기반 기울기와 블랙박스 변분 추론 기법을 사용하여 ELBO를 효율적으로 최적화한다.

실험 결과

연구 질문

  • RQ1일반적인 확률 프로그래밍 프레임워크인 스턴에서 모형 전용 도함수 계산 없이도 변분 추론을 완전히 자동화할 수 있는가?
  • RQ2자기 미분과 확률적 최적화를 통해 MCMC가 비가능한 대규모 데이터셋(예: 250,000장의 이미지)에서도 확장 가능한 베이지안 추론이 가능할 수 있는가?
  • RQ3제안된 자동 변분 추론 방법이 MCMC와 경쟁 가능한 정확도를 달성하면서도 훨씬 더 빠른가?
  • RQ4공액성 가정 없이도 비공액 및 계층 모형을 포함한 광범위한 모형 클래스를 처리할 수 있는가?
  • RQ5ADVI의 성능은 스턴의 기본 MCMC 샘플러(NUTS)와 비교해 속도와 예측 정확도 측면에서 어떻게 다른가?

주요 결과

  • 1,000장의 이미지로 구성된 계층적 로지스틱 회귀 모형에서 ADVI는 NUTS, 스턴의 기본 MCMC 샘플러보다 수개의 주기적 속도 향상을 달성했다.
  • 250,000장의 이미지로 훈련된 비공액 가우시안 혼합 모형에서 ADVI는 두 시간 이내에 타당한 사후 근사를 생성했으며, 이는 기존 MCMC로는 비가능한 작업이었다.
  • 1,000장의 이미지 데이터셋에서 보류된 예측 가능도 측면에서 ADVI는 NUTS를 초월하여 경쟁 가능한 모형 적합도를 보였다.
  • 모형 전용 수정 없이도 계층적 일반선형 모형, 비공액 행렬 분해, 가우시안 혼합 모형을 포함한 다양한 모형을 성공적으로 지원했다.
  • 샘플링을 통한 확률적 변분 추론이 대규모 데이터셋에 스케일링되도록 하였으며, 계산 시간을 줄이면서도 정확도를 유지했다.
  • ADVI는 스턴 2.7 버전 이후로 성공적으로 통합되어 모든 스턴 모형에 대해 원활하고 자동화된 추론 옵션을 제공하고 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.