Skip to main content
QUICK REVIEW

[논문 리뷰] Stein Variational Gradient Descent: A General Purpose Bayesian Inference Algorithm

Qiang Liu, Dilin Wang|arXiv (Cornell University)|2016. 08. 15.
Gaussian Processes and Bayesian Inference참고 문헌 30인용 수 280
한 줄 요약

일반 목적의 변분 추론 방법으로, RKHS에서의 기능적 그래디언트 하강을 통해 입자 세트를 대상 후방에 전달하고 KL 발산을 Stein 불일치와 연결하여 효율적인 베이지안 추론을 수행한다.

ABSTRACT

We propose a general purpose variational inference algorithm that forms a natural counterpart of gradient descent for optimization. Our method iteratively transports a set of particles to match the target distribution, by applying a form of functional gradient descent that minimizes the KL divergence. Empirical studies are performed on various real world models and datasets, on which our method is competitive with existing state-of-the-art methods. The derivation of our method is based on a new theoretical result that connects the derivative of KL divergence under smooth transforms with Stein's identity and a recently proposed kernelized Stein discrepancy, which is of independent interest.

연구 동기 및 목표

  • 다양한 모델과 데이터 세트에 적용 가능한 일반적이고 사용자 친화적인 변분 추론 도구를 만들려는 동기.
  • 전체 베이지안 추론을 위한 그래디언트 하강처럼 작동하는 방법을 개발하여 다수의 입자를 사용한 효율적이고 확장 가능한 후방 근사화를 가능하게 한다.
  • KL 발산의 매끄러운 변환 하에서의 도함수와 Stein 불일치 사이의 원칙적 연결을 제공하여 최적의 섭동 방향을 도출한다.
  • 명시적 파라메트릭 변환 형태나 야코비안 계산을 필요로 하지 않는 실용적이고 구현 가능한 알고리즘을 제시한다.

제안 방법

  • 매끄럽고 역변환이 가능한 변환들로 구성된 가용 분포(tractable base distribution)에 적용된 변분 가족을 도입한다.
  • KL 발산의 작은 변형 섭동에 대한 도함수가 섭동에 적용된 Stein 연산자와 같음을 도출한다.
  • kernelized Stein discrepancy를 사용하여 RKHS에서의 최적 섭동 방향의 닫힌 형식을 얻고 실용적인 업데이트 규칙을 가능하게 한다.
  • 입자 기반의 반복 알고리즘을 개발하여 입자를 x <- x + epsilon * phi*(x)로 업데이트하고, phi*(x)는 커널과 점수 기울기를 사용하여 모든 입자에서 계산된다.
  • 알고리즘 1을 제시하여 각 입자를 로그 밀도 기울기와 커널 기울기의 가중합으로 업데이트하여 입자를 목표 p로 이끈다.
  • 대용량 데이터셋에 대한 미니배치와 커널 행렬 연산을 포함한 계산 고려사항과 효율성 및 확장성 전략을 논의한다.

실험 결과

연구 질문

  • RQ1일반 목적의 그래디언트 하강과 유사한 변분 추론 알고리즘을 개발하여 대규모 데이터셋과 복잡한 모델에 확장할 수 있는가?
  • RQ2Stein의 항등식 및 커널화 Stein 불일치를 사용하여 매끄러운 데이터 변환을 통해 KL 발산 최소화를 어떻게 작동화할 수 있는가?
  • RQ3입자 기반의 반발적이되 수렴하는 스킴이 다변 추정에서 다양성을 유지하면서 정확한 후방 근사를 제공하는가?
  • RQ4단일 입자로 MAP으로 축소될 수 있으며 다중 입자를 사용한 전체 베이지안 추론으로 일반화될 수 있는가?

주요 결과

  • Stein 연산자는 매끄러운 변환 하에서의 KL 발산 도함수를 커널화 Stein 불일치(KSD)와 연결하여 닫힌 형식의 최적 섭동 방향을 가능하게 한다.
  • RKHS의 방향들로 연속적인 매끄러운 변환을 반복하여 기본 분포를 목표 후방으로 운반하고 KL 하강을 달성하는 반복 절차를 제시한다.
  • 제안된 SVGD 알고리즘은 한 입자에서 MAP 추론으로 축소되며 다수의 입자를 사용한 전체 베이지안 추론으로 일반화되면서 붕괴를 방지하기 위한 반발력을 유지한다.
  • 실험적 결과는 Bayesian 로지스틱 회귀 및 Bayesian 신경망과 같은 작업에서 최첨단 베이스라인에 비해 경쟁력 있는 성능과 정확도 및 효율성 측면에서 우호적인 비교를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.