Skip to main content
QUICK REVIEW

[논문 리뷰] Generalized Variational Inference: Three arguments for deriving new Posteriors

Jeremias Knoblauch, Jack Jewson|arXiv (Cornell University)|2019. 04. 03.
Gaussian Processes and Bayesian Inference참고 문헌 152인용 수 61
한 줄 요약

논문은 베이지안 추론을 무한 차원 최적화로 재정의하고, 표준 VI가 유한 변분 가족 내에서 최적임을 증명하며, priors, likelihoods, 및 계산의 부정합(problem)을 다루기 위해 세 가지 규칙(RoT)과 일반화 변분 추론(GVI)을 도입한다.

ABSTRACT

We advocate an optimization-centric view on and introduce a novel generalization of Bayesian inference. Our inspiration is the representation of Bayes' rule as infinite-dimensional optimization problem (Csiszar, 1975; Donsker and Varadhan; 1975, Zellner; 1988). First, we use it to prove an optimality result of standard Variational Inference (VI): Under the proposed view, the standard Evidence Lower Bound (ELBO) maximizing VI posterior is preferable to alternative approximations of the Bayesian posterior. Next, we argue for generalizing standard Bayesian inference. The need for this arises in situations of severe misalignment between reality and three assumptions underlying standard Bayesian inference: (1) Well-specified priors, (2) well-specified likelihoods, (3) the availability of infinite computing power. Our generalization addresses these shortcomings with three arguments and is called the Rule of Three (RoT). We derive it axiomatically and recover existing posteriors as special cases, including the Bayesian posterior and its approximation by standard VI. In contrast, approximations based on alternative ELBO-like objectives violate the axioms. Finally, we study a special case of the RoT that we call Generalized Variational Inference (GVI). GVI posteriors are a large and tractable family of belief distributions specified by three arguments: A loss, a divergence and a variational family. GVI posteriors have appealing properties, including consistency and an interpretation as approximate ELBO. The last part of the paper explores some attractive applications of GVI in popular machine learning models, including robustness and more appropriate marginals. After deriving black box inference schemes for GVI posteriors, their predictive performance is investigated on Bayesian Neural Networks and Deep Gaussian Processes, where GVI can comprehensively improve upon existing methods.

연구 동기 및 목표

  • 최적화 중심의 베이esian 추론 관점을 제시하고, 베이즈의 법칙이 무한 차원 최적화 문제로 표현될 수 있음을 보인다.
  • 세 가지 규칙(RoT)을 도입하여 표준 Bayesian 추론의 세 가지 핵심 가정: priors, likelihoods, 및 computing power를 완화한다.
  • 일반화 변분 추론(GVI)을 실현 가능한 RoT 특수 사례로 정의하고, 이의 이론적 특성과 계산을 논의한다.
  • GVI가 Bayesian 신경망 및 심층 가우스 프로세스와 같은 대규모 모델에서 강건한 추론 및 마진 분포 개선을 제공하는지 보여준다.

제안 방법

  • 포스트리어 추론을 손실(l)과 발산(d)과 해로운 해 공간(RO T)을 가지는 확률 측정에 대한 최적화로 공식화한다.
  • 표준 Bayesian 후발분포가 특정 목적함수의 해로 나타나며, VI가 이는 유한 변분 가족 내에서 이 목적함수를 최적으로 푼다는 것을 보인다.
  • GVI를 Feasible 집합이 변분 가족인 특수한 RoT 케이스로 정의하여, 대체 손실 및 발산으로도 계산 가능한 추론을 가능하게 한다.
  • 일관성과 GVI를 근사 ELBO로 해석하는 이론적 특성을 개발하고, 계산을 위한 블랙박스 BBGVI를 제시한다.
  • RoT/GVI를 Gibbs posteriors, tempered posteriors, PAC-Bayesian 접근법과 연결하는 분류학을 제공한다.

실험 결과

연구 질문

  • RQ1베이지안 추론을 무한 차원 최적화 문제로 재해석하는 방법은 무엇이며, 표준 VI에 대해 어떤 최적성 결과를 얻는가?
  • RQ2세 가지 규칙(RoT)이 priors, likelihoods, 및 계산을 완화함으로써 베이지안 추론을 일반화하는 방법은 무엇이며, 기존 방법들이 특별한 경우로 회수되는가?
  • RQ3일반화 변분 추론(GVI)이 무엇이며, 이의 이론적 특성과 실용적 계산 전략은 무엇인가?
  • RQ4GVI가 베이지안 신경망 및 심층 가우스 프로세스와 같은 대규모 모델에서 강건성과 주변 분포 정확도를 향상시킬 수 있는가?

주요 결과

  • 표준 VI는 무한 차원 베이즈 목적에 대해 유한 변분 가족 내에서 최적임.
  • RoT는 priors, likelihood, 및 computing 가정을 완화하는 원칙적 프레임워크를 제공하여 기존의 일반화된 베이지안 방법들을 하나로 통합한다.
  • GVI는 손실, 발산, 그리고 변분 가족으로 정의된 크고 해석 가능한 후방 분포의 큰 계를 제공하며, 이론적 보장과 근사 ELBO로의 해석을 제시한다.
  • GVI는 강건성 및 주변 분산 문제를 다룰 수 있으며, 블랙박스 추론 방식의 적용성을 확장하여 복잡한 모델에의 적용성을 높인다.
  • 베이지안 신경망 및 심층 가우스 프로세스에의 응용은 표준 베이지안 가정과의 부합 문제를 다룸으로써 성능 개선을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.