Skip to main content
QUICK REVIEW

[논문 리뷰] Lagging Inference Networks and Posterior Collapse in Variational Autoencoders

Junxian He, Daniel Spokoyny|arXiv (Cornell University)|2019. 01. 16.
Generative Adversarial Networks and Image Synthesis참고 문헌 30인용 수 127
한 줄 요약

본 논문은 VAEs에서의 포스터리어 콜랩스를 학습 다이내믹스 문제로 보고, 추론 네트워크의 지연에 의해 발생하며, 모델을 바꾸지 않고도 콜랩스를 완화하는 간단하고 적극적인 추론 업데이트 전략을 도입하여 검증 데이터의 우도 및 학습 속도를 향상시킨다.

ABSTRACT

The variational autoencoder (VAE) is a popular combination of deep latent variable model and accompanying variational learning technique. By using a neural inference network to approximate the model's posterior on latent variables, VAEs efficiently parameterize a lower bound on marginal data likelihood that can be optimized directly via gradient methods. In practice, however, VAE training often results in a degenerate local optimum known as "posterior collapse" where the model learns to ignore the latent variable and the approximate posterior mimics the prior. In this paper, we investigate posterior collapse from the perspective of training dynamics. We find that during the initial stages of training the inference network fails to approximate the model's true posterior, which is a moving target. As a result, the model is encouraged to ignore the latent encoding and posterior collapse occurs. Based on this observation, we propose an extremely simple modification to VAE training to reduce inference lag: depending on the model's current mutual information between latent variable and observation, we aggressively optimize the inference network before performing each model update. Despite introducing neither new model components nor significant complexity over basic VAE, our approach is able to avoid the problem of collapse that has plagued a large amount of previous work. Empirically, our approach outperforms strong autoregressive baselines on text and image benchmarks in terms of held-out likelihood, and is competitive with more complex techniques for avoiding collapse while being substantially faster.

연구 동기 및 목표

  • 강력한 디코더를 가진 VAE에서 포스터리어 콜랩스가 왜 발생하는지 동기 부여 및 이해.
  • 초기 학습 중 실제 posterior와 근사 posterior의 학습 다이내믹스 분석.
  • 추론 네트워크의 지연을 줄이기 위한 간단하고 적극적인 업데이트 절차를 제안.
  • 목적을 변경하지 않고 ELBO 최적화를 보존하며 새로운 모델 구성 요소가 필요 없음을 보장.
  • 텍스트 및 이미지 벤치마크에서 더 빠른 학습 속도와 함께 경쟁력 있는 밀도 추정 성능을 입증

제안 방법

  • ELBO를 q_phi(z|x)와 p_theta(z|x) 간의 합의(term) D_KL(q_phi(z|x)||p_theta(z|x)) 및 모델 포스터리오 p_theta(z|x)에 대한 동의를 강조하도록 재구성한다.
  • 저차원 공간에서 포스터리오 평균 궤적 시각화를 통해 포스터리오 지연을 콜랩스의 원인으로 식별한다.
  • 목적을 수정하지 않고 theta를 업데이트하기 전에 phi를 여러 번 업데이트하는 내부 루프처럼 적극적인 추론-네트워크 업데이트를 도입한다.
  • ax mutual information I_q(z;x) 하에서 지연이 줄어들도록 불필요한 공격적 업데이트를 중지하는 시점을 결정한다.
  • 표준 ELBO 최적화를 유지하면서 추론 네트워크 업데이트의 빈도를 크게 증가시킨다.
  • 자율 회귀 기준선 및 기존의 콜랩스 방지 방법과 비교하며 학습 시간 효율성을 강조한다

실험 결과

연구 질문

  • RQ1강력한 디코더를 가진 기본 VAE 학습이 왜 종종 포스터리어 콜랩스로 이어지는가?
  • RQ2모델을 바꾸지 않고도 학습 다이내믹스를 간단히 바꾸어 잠재 변수의 콜랩스를 방지할 수 있는가?
  • RQ3학습 초기기에 추론 네트워크를 적극적으로 업데이트하는 것이 ELBO 최적화를 유지하면서 잠재 코드의 활용에 도움이 되는가?
  • RQ4제안된 방법이 기존의 콜랩스 방지 기법과 비교하여 밀도 추정 및 학습 효율성 측면에서 얼마나 성능이 나타나는가?

주요 결과

  • 포스터리어 콜랩스는 초기 학습 중 지연되는 추론 네트워크와 연관되어 모델이 잠재 변수를 무시하도록 이끈다.
  • 생성기 업데이트마다 끼리의 업데이트 전에 추론 네트워크를 적극적으로 업데이트하면 지연이 감소하고 궤적이 잠재 코드 활용으로 이동한다.
  • 이 방법은 ELBO 최적화를 유지하며 텍스트 및 이미지 벤치마크에서 비교적 우수한 또는 우수한 홀드아웃 우도를 제공한다.
  • 표준 VAE에 비해 추가 학습 시간이 modest하게 필요하며 2–3x의 증가이면서 SA-VAE보다 빠르고 콜랩스를 회피한다.
  • 지연이 완화되면 불필요한 내부 루프 업데이트를 효과적으로 방지하는 mutual-information 기반 중지 기준이 작동한다.
  • Yahoo, Yelp, OMNIGLOT에 대한 실험에서 최신 방법과 비슷한 성능을 보이면서도 복잡도는 크게 감소한다

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.