QUICK REVIEW

[논문 리뷰] Stochastic Backpropagation through Mixture Density Distributions

Alex Graves|arXiv (Cornell University)|2016. 07. 19.

Gaussian Processes and Bayesian Inference참고 문헌 3인용 수 35

한 줄 요약

이 논문은 다중도수 분포를 갖는 모델을 훈련시키기 위한 스토하스틱 백프로파게이션 방법을 제안하며, 다변량 분위수 변환과 몬테카를로 샘플링을 사용하여 혼합 가중치에 대한 편향 없는 기울기 추정기를 유도한다. 이 방법은 미분 가능한 샘플링과 기울기 추정을 통해 혼합 분포를 갖는 잠재변수를 가진 변분 오토에인드어의 엔드 투 엔드 훈련을 가능하게 하여 이산적 혼합 성분에 대한 재패arameterization 트릭의 한계를 극복한다.

ABSTRACT

The ability to backpropagate stochastic gradients through continuous latent distributions has been crucial to the emergence of variational autoencoders and stochastic gradient variational Bayes. The key ingredient is an unbiased and low-variance way of estimating gradients with respect to distribution parameters from gradients evaluated at distribution samples. The "reparameterization trick" provides a class of transforms yielding such estimators for many continuous distributions, including the Gaussian and other members of the location-scale family. However the trick does not readily extend to mixture density models, due to the difficulty of reparameterizing the discrete distribution over mixture weights. This report describes an alternative transform, applicable to any continuous multivariate distribution with a differentiable density function from which samples can be drawn, and uses it to derive an unbiased estimator for mixture density weight derivatives. Combined with the reparameterization trick applied to the individual mixture components, this estimator makes it straightforward to train variational autoencoders with mixture-distributed latent variables, or to perform stochastic variational inference with a mixture density variational posterior.

연구 동기 및 목표

이산적 혼합 가중치로 인해 재패arameterization 트릭을 적용할 수 없는 비재패arameterizable인 혼합 밀도 분포를 통해 기울기를 전파하는 문제를 해결하기 위해.
혼합 가중치에 대한 편향 없는 기울기 추정기를 도출하여 재패arameterization 트릭을 혼합 모델로 확장하기 위해.
딥 생성 모델에서 혼합 밀도 사후분포를 갖는 스토하스틱 변분 추론을 가능하게 하기 위해.
연속적인 다변량 분포에 대해 기울기 추정을 위한 일반적인 프레임워크를 제공하기 위해, 이는 기울기 추정이 가능한 밀도 함수와 해석 가능한 누적분포함수의 역함수를 갖는다.

제안 방법

균일한 난수를 사용하여 누적분포함수(CDF)의 역함수를 통해 연속 분포에서 샘플링하기 위해 다변량 분위수 변환을 사용한다.
라이프니츠 적분 법칙과 CDF의 재귀적 역함수를 사용하여 분포의 파라미터에 대한 일반적인 기울기 추정기를 유도한다.
기울기 계산에서 해석이 불가능한 적분을 몬테카를로 샘플링을 통해 추정하며, 조건부 밀도에서 기각 샘플링을 사용한다.
조건부 밀도를 구성 밀도의 가중합으로 표현하고 구성 요소의 책임을 재귀적 업데이트를 통해 추적함으로써 혼합 밀도 모델에 이 방법을 적용한다.
잠재변수와 구성 요소 책임의 기울기를 혼합 가중치에 대해 함께 계산하기 위한 연쇄적 재귀를 유도하여 혼합에 대한 기울기 전파를 가능하게 한다.
정규화된 샘플링과 분위수 변환 및 혼합 구조를 통해 도함수를 역전파하는 반복적인 기울기 계산을 수행하는 의사코드 알고리즘(알고리즘 1)을 활용한다.

실험 결과

연구 질문

RQ1이산적 혼합 가중치로 인해 재패arameterization 트릭이 실패할 경우, 혼합 밀도 파라미터에 대해 편향 없고 분산이 낮은 기울기 추정기를 도출할 수 있는가?
RQ2단지 미분 가능한 샘플링과 해석 가능한 CDF 역함수를 사용하여, 혼합 밀도 분포의 잠재변수를 통해 기울기를 어떻게 계산할 수 있는가?
RQ3분위수 변환과 재귀적 책임 추적, 몬테카를로 적분을 조합하여 스토하스틱 백프로파게이션을 혼합 모델로 확장할 수 있는가?
RQ4기울기 전파를 유지하면서 수치적 안정성을 확보하기 위해 혼합 가중치를 통해 전파하기 위해 필요한 계산 구조는 무엇인가?

주요 결과

제안된 방법은 다변량 분위수 변환과 해석이 불가능한 적분의 몬테카를로 근사를 조합하여 혼합 밀도 파라미터에 대해 편향 없는 기울기 추정을 가능하게 한다.
이 기울기 추정기는 혼합 모델에 국한되지 않고, 기울기 추정이 가능한 기울기 함수와 해석 가능한 CDF 역함수를 갖는 임의의 연속 다변량 분포에 적용 가능하다.
혼합 모델의 경우, 잠재 차원을 따라 기울기를 계산하기 위한 연쇄적 재귀를 사용하여 혼합 가중치를 통해 기울기를 계산하며, 구성 요소의 책임과 그 도함수를 추적한다.
이 방법은 혼합 분포를 갖는 잠재변수를 가진 변분 오토에인드어의 엔드 투 엔드 훈련을 지원하여 보다 민첩한 사후 근사 추정을 가능하게 한다.
이 방법은 수치적으로 안정적이고 효율적이며, 전체 CDF의 기울기 계산을 명시적으로 요구하지 않는 의사코드와 재귀적 기울기 계산을 통해 이를 입증한다.
이 프레임워크는 혼합 밀도 사후분포를 갖는 스토하스틱 변분 추론을 지원하며, 복잡하고 多모달인 사후 분포에 대한 변분 추론의 적용 가능성을 확장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.