Skip to main content
QUICK REVIEW

[논문 리뷰] ControlVAE: Controllable Variational Autoencoder

Huajie Shao, Shuochao Yao|ArXiv.org|2020. 04. 13.
Generative Adversarial Networks and Image Synthesis참고 문헌 40인용 수 38
한 줄 요약

ControlVAE는 KL-divergence를 동적으로 조정하기 위한 비선형 PI 제어기를 도입하여 언어 모델링, 해석 가능한 표현, 이미지 생성 전반에 걸친 재구성 품질, 해방(해재? disentanglement), 다양성에 대한 명시적 제어를 가능하게 한다.

ABSTRACT

Variational Autoencoders (VAE) and their variants have been widely used in a variety of applications, such as dialog generation, image generation and disentangled representation learning. However, the existing VAE models have some limitations in different applications. For example, a VAE easily suffers from KL vanishing in language modeling and low reconstruction quality for disentangling. To address these issues, we propose a novel controllable variational autoencoder framework, ControlVAE, that combines a controller, inspired by automatic control theory, with the basic VAE to improve the performance of resulting generative models. Specifically, we design a new non-linear PI controller, a variant of the proportional-integral-derivative (PID) control, to automatically tune the hyperparameter (weight) added in the VAE objective using the output KL-divergence as feedback during model training. The framework is evaluated using three applications; namely, language modeling, disentangled representation learning, and image generation. The results show that ControlVAE can achieve better disentangling and reconstruction quality than the existing methods. For language modelling, it not only averts the KL-vanishing, but also improves the diversity of generated text. Finally, we also demonstrate that ControlVAE improves the reconstruction quality of generated images compared to the original VAE.

연구 동기 및 목표

  • VAEs에서 KL-비용-재현(재구성) 트레이드오프에 대한 명시적 제어를 도입하여 다양한 응용에 맞게 조정할 수 있도록 동기를 부여하고 enable 한다.
  • KL 가중치 학습 동안 조정하기 위해 비선형 PI 제어기를 사용하는 controllable VAE 프레임워크를 개발한다.
  • 다양한 데이터셋에서 재구성 품질, 해방, 텍스트/이미지 생성의 개선을 입증한다.

제안 방법

  • VAE 목적 함수에서 KL-가중치 beta(t)를 출력 KL-다발(클) 계산값을 피드백으로 사용하여 자동으로 조정하도록 비선형 PI 제어기를 도입한다.
  • 제어 목표를 사용자가 지정한 설정점 v_kl에서 KL-다발을 안정화시키는 것으로 정의하고 VAE 재구성 항을 최적화한다.
  • beta(t)를 비선형 PI 제어 규칙으로 형식화한다: beta(t) = K_p / (1 + exp(e(t))) - K_i sum_{j=0}^t e(j) + beta_min, where e(t) = v_kl - hat{v}_{kl}(t).
  • 안티-윈드업 및 제한된 beta(t)를 포함시켜 안정적인 학습을 보장한다.
  • ControlVAE를 언어 모델링, 해방 표현 학습, 이미지 생성을 적용하여 재구성, KL-divergence, 그리고 태스크별 지표 간의 트레이드오프를 평가한다.

실험 결과

연구 질문

  • RQ1ControlVAE가 KL-vanishing을 방지하면서 언어 모델링에서 생성 다양성을 향상시킬 수 있는가?
  • RQ2KL-divergence의 자동 피드백 기반 조정이 재구성 품질을 손상시키지 않으면서 해방을 더 잘 달성하는가?
  • RQ3제어 가능한 KL-divergence가.latent prior를 압도하지 않으면서 이미지 생성 재구성 품질을 향상시킬 수 있는가?
  • RQ4ControlVAE가 고정-beta VAE 변형(beta-VAE, FactorVAE)과 비교하여 MIG/해방, 재구성 손실, 생성 지표에서 어떤 차이를 보이는가?

주요 결과

  • ControlVAE는 언어 모델링에서 KL-vanishing을 피하고 baselines에 비해 생성 데이터의 다양성을 향상시킨다.
  • ControlVAE는 재구성 손실을 cyclical annealing보다 낮게 달성하고 선택된 설정점에서 안정적인 KL-divergence를 유지한다.
  • 해방 표현 학습에서 ControlVAE는 Beta-VAE보다 분산이 작거나 같은 MIG 점수를 달성하고 FactorVAE와 비교해 우수한 성과를 보인다.
  • CelebA의 이미지 생성에서 더 높은 KL-divergence(KL-200과 같은)로 제어된 ControlVAE가 재구성을 개선하고 원래 VAE에 비해 FID/SSIM을 향상시킨다.
  • 태스크 전반에 걸쳐 자동 beta(t) 튜닝으로 재구성 정확도와 KL-divergence 간의 트레이드오프를 조절할 수 있음을 보여준다.
  • 정성적 결과는 ControlVAE가 다중 잠재 요인을 해제하고 다양하면서도 진짜 같은 출력을 유지할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.