[논문 리뷰] A Contrastive Divergence for Combining Variational Inference and MCMC
이 논문은 변분 추론과 마르코프 체인 몬테 카를로(MCMC) 샘플링을 결합함으로써 계산 가능한 최적화를 가능하게 하는 새로운 산란도인 변분 대비 수렴도(VCD)를 제안한다. MCMC 스텝을 통해 초기 변분 분포를 개선하고 VCD 목적함수를 최적화함으로써, VAE와 로지스틱 행렬 분해와 같은 잠재변수 모델에서 표준 변분 추론 및 이전의 MCMC-변분 하이브리드보다 더 뛰어난 예측 성능을 달성한다.
We develop a method to combine Markov chain Monte Carlo (MCMC) and variational inference (VI), leveraging the advantages of both inference approaches. Specifically, we improve the variational distribution by running a few MCMC steps. To make inference tractable, we introduce the variational contrastive divergence (VCD), a new divergence that replaces the standard Kullback-Leibler (KL) divergence used in VI. The VCD captures a notion of discrepancy between the initial variational distribution and its improved version (obtained after running the MCMC steps), and it converges asymptotically to the symmetrized KL divergence between the variational distribution and the posterior of interest. The VCD objective can be optimized efficiently with respect to the variational parameters via stochastic optimization. We show experimentally that optimizing the VCD leads to better predictive performance on two latent variable models: logistic matrix factorization and variational autoencoders (VAEs).
연구 동기 및 목표
- MCMC 샘플링 이후에 정의되는 암묵적인 개선된 사후분포에 대해 변분 추론을 최적화하는 데 도전하는 것.
- MCMC로 개선된 분포의 밀도가 계산이 불가능하더라도, 계산 가능한 미분 가능 목적함수를 개발하여 변분 매개수의 확률적 최적화를 가능하게 하는 것.
- 변분 추론의 효율성과 암시적 최적화의 이점을 유지하면서 MCMC 개선을 활용하여 잠재변수 모델의 예측 성능을 향상시키는 것.
- 대칭화된 KL 산란도로 점차 수렴하는 원리적인 산란도를 제공하고 최적화를 위한 편향 없는 기울기 추정을 지원하는 것.
제안 방법
- 초기 변분 분포와 그 MCMC로 개선된 버전 사이의 차이를 측정하는 산란도인 변분 대비 수렴도(VCD)를 제안하며, 이는 변분 분포와 진짜 사후분포 사이의 차이가 아니라, 초기 변분 분포와 MCMC로 개선된 버전 사이의 차이를 측정한다.
- 고정된 수의 MCMC 스텝(예: HMC)을 사용하여 초기 변분 제안 분포를 개선함으로써, 밀도가 계산이 불가능한 암묵적인 개선된 분포를 생성한다.
- MCMC 체인에서의 샘플을 사용하여 VCD 기울기의 편향 없는 몬테 카를로 추정기를 유도함으로써, 변분 매개수의 확률적 최적화를 가능하게 한다.
- MCMC 샘플이 변분 매개수를 업데이트하는 데 피드백을 제공하는 방식으로, VCD 목적함수를 확률적 경사하강법으로 최적화한다.
- 대조 학습 전략을 적용한다: VCD 목적함수를 변분 매개수에 대해 최소화하면서 MCMC 체인이 현재 변분 분포에서 시작되도록 한다.
- 각 관측치에 대한 국소 잠재변수의 사후분포를 빠르게 근사하기 위해 전역 변분 가족을 사용하는 암시적 추론 환경에 이 방법을 적용한다.
실험 결과
연구 질문
- RQ1MCMC 샘플링에 의해 암묵적으로 정의되는 개선된 사후분포가 존재할 때, 변분 매개수의 최적화를 가능하게 하는 원리적인 산란도를 정의할 수 있는가?
- RQ2VCD 목적함수를 통해 MCMC 개선과 변분 추론을 융합하면, 표준 변분 추론 또는 이전의 MCMC-변분 하이브리드보다 더 나은 예측 성능을 달성할 수 있는가?
- RQ3MCMC 스텝 수가 VCD 기반 추론의 성능와 계산 비용에 어떻게 영향을 미치는가?
- RQ4작은 수의 MCMC 스텝으로도 다양한 모델과 데이터셋에서 안정적이고 효율적인 최적화를 지원할 수 있는가?
- RQ5VCD는 대칭화된 KL 산란도로 점차 수렴하는가? 이는 무한한 MCMC 스텝 수에서 표준 변분 추론과 이론적으로 일관성을 확보한다.
주요 결과
- 표준 변분 추론 및 Hoffman(2017)의 방법과 비교해 보면, MNIST와 Fashion-MNIST 데이터셋에서 VCD 목적함수 최적화가 훨씬 뛰어난 테스트 로그우도 성능을 달성한다.
- 단지 2개의 MCMC 스텝으로도 VCD 기반 방법이 표준 변분 추론보다 더 높은 테스트 로그우도를 달성함으로써, MCMC 개선이 즉각적인 성능 향상을 가져옴을 보여준다.
- MCMC 스텝 수가 증가할수록 성능이 단조롭게 향상되며, 8개 스텝에서 최고의 성능를 기록함으로써 더 긴 체인의 이점이 있음을 확인한다.
- VCD 알고리즘의 계산 비용은 MCMC 스텝 수에 비례하여 선형적으로 증가하지만, 추가 계산에도 불구하고 Hoffman(2017)의 방법보다 약간 더 빠르고 최적화가 안정적이다.
- VCD는 편향 없는 기울기 추정을 지원하여 신뢰할 수 있는 확률적 최적화를 가능하게 하며, 다양한 모델과 데이터셋에서 강인함을 보였다.
- VCD는 무한한 MCMC 스텝 수에서 초기 변분 분포와 진짜 사후분포 사이의 대칭화된 KL 산란도로 점차 수렴하며, 이는 이론적으로 한계에서 표준 변분 추론과 일관성을 확보한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.