Skip to main content
QUICK REVIEW

[논문 리뷰] Variational inference for Monte Carlo objectives

Andriy Mnih, Danilo Jimenez Rezende|arXiv (Cornell University)|2016. 02. 22.
Generative Adversarial Networks and Image Synthesis참고 문헌 20인용 수 81
한 줄 요약

이 논문은 다중 샘플 변분 추론 목표 함수를 위한 최초의 비편향 그래디언트 추정기인 VIMCO를 소개한다. 이는 추가적인 파라미터 없이 각 샘플의 학습 신호를 활용하여 분산을 줄인다. 이는 더 탴튼한 몬테카를로 목표 함수를 사용하여 이산 잠재 변수를 가진 모델의 효과적인 학습을 가능하게 하며, NVIL을 능가하고 편향 추정기와 유사한 성능을 내지만, 복잡한 모델의 엔드 투 엔드 학습을 가능하게 한다.

ABSTRACT

Recent progress in deep latent variable models has largely been driven by the development of flexible and scalable variational inference methods. Variational training of this type involves maximizing a lower bound on the log-likelihood, using samples from the variational posterior to compute the required gradients. Recently, Burda et al. (2016) have derived a tighter lower bound using a multi-sample importance sampling estimate of the likelihood and showed that optimizing it yields models that use more of their capacity and achieve higher likelihoods. This development showed the importance of such multi-sample objectives and explained the success of several related approaches. We extend the multi-sample approach to discrete latent variables and analyze the difficulty encountered when estimating the gradients involved. We then develop the first unbiased gradient estimator designed for importance-sampled objectives and evaluate it at training generative and structured output prediction models. The resulting estimator, which is based on low-variance per-sample learning signals, is both simpler and more effective than the NVIL estimator proposed for the single-sample variational objective, and is competitive with the currently used biased estimators.

연구 동기 및 목표

  • 이산 잠재 변수를 가진 모델을 다중 샘플 목표 함수를 사용하여 학습할 때 발생하는 높은 그래디언트 추정 분산 문제를 해결하기 위해.
  • NVIL과 달리 학습된 기준값이 필요 없는 비편향 그래디언트 추정기를 개발하여 샘플 효율성을 향상시키기 위해.
  • 더 탄탄한 다중 샘플 변분 경계를 사용하여 생성 모델과 구조적 출력 예측 모델의 엔드 투 엔드 학습을 가능하게 하기 위해.
  • 효율적인 그래디언트 추정과 함께 다중 샘플 목표 함수를 사용할 경우, 이로 인해 모델 용량 활용도와 로그우도가 향상됨을 보여주기 위해.

제안 방법

  • 제안된 VIMCO는 제안 분포에서 독립된 K개의 샘플을 평균화한 목표 함수를 위한 새로운 비편향 그래디언트 추정기이다.
  • NVIL에서처럼 학습된 기준값이 필요 없이 각 샘플의 학습 신호를 활용하여 그래디언트 분산을 감소시킨다.
  • 이 추정기를 이산 잠재 변수를 가진 생성 모델과 구조적 출력 예측 작업에 적용한다.
  • 입력 데이터에 조건부로 설정할 수 있는 제안 분포를 사용하여 샘플 품질을 향상시키고 분산을 줄인다.
  • 재파라미터라이제이션과 중요도 가중치를 사용하여 다중 샘플 하한 경계의 그래디언트를 유도함으로써 비편향 추정을 보장한다.
  • 이 방법을 생성 모델링과 조건부 이미지 보완 작업 모두에 대해 이진화된 MNIST 데이터셋에서 평가한다.

실험 결과

연구 질문

  • RQ1다중 샘플 변분 목표 함수를 위한 비편향 그래디언트 추정기를 설계할 수 있는가? 이는 난이도가 높은 단순 추정기의 분산 문제를 피할 수 있는가?
  • RQ2VIMCO는 다중 샘플 목표 함수 하에서 이산 잠재 변수를 가진 모델을 학습할 때 NVIL을 능가하는가?
  • RQ3다중 샘플 목표 함수에서 사전 분포 대비 학습된 제안 분포를 사용할 경우 성능에 어떤 영향을 미치는가?
  • RQ4다중 샘플 목표 함수는 이산 잠재 변수 모델에서 모델 용량 활용도와 우도를 어느 정도 향상시키는가?

주요 결과

  • VIMCO는 샘플 수가 증가할수록 특히 생성 모델과 구조적 출력 예측 모델의 학습에서 NVIL을 일관되게 능가했다.
  • 50개의 샘플을 사용할 경우, VIMCO는 구조적 출력 예측 작업에서 음의 로그우도 46.1 nats를 달성하여 이전 최고 성능인 53.8 nats를 초월했다.
  • 학습된 제안 분포를 사용할 경우 사전 분포를 사용한 경우보다 유의미하게 높은 성능을 보였으며, 최악의 VIMCO 결과도 최고의 사전 기반 결과를 초월했다.
  • 샘플 수가 많아질수록 VIMCO와 NVIL 간의 성능 격차가 커져, VIMCO의 우수한 분산 감소 성능을 입증했다.
  • VIMCO로 학습된 모델는 생성된 샘플을 통해 조건부 이미지 보완 작업에서 다중모달 구조를 효과적으로 포착했다.
  • VIMCO는 편향 추정기와 경쟁 가능한 성능을 달성하면서도 완전히 비편향이므로 더 신뢰할 수 있고 안정적인 학습이 가능했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.