[论文解读] ControlVAE: Controllable Variational Autoencoder
ControlVAE 引入非线性 PI 控制器,以动态调整 VAE 中的 KL 散度,从而在语言建模、解耦表示和图像生成等任务中,对重建质量、解耦和多样性实现显式控制。
Variational Autoencoders (VAE) and their variants have been widely used in a variety of applications, such as dialog generation, image generation and disentangled representation learning. However, the existing VAE models have some limitations in different applications. For example, a VAE easily suffers from KL vanishing in language modeling and low reconstruction quality for disentangling. To address these issues, we propose a novel controllable variational autoencoder framework, ControlVAE, that combines a controller, inspired by automatic control theory, with the basic VAE to improve the performance of resulting generative models. Specifically, we design a new non-linear PI controller, a variant of the proportional-integral-derivative (PID) control, to automatically tune the hyperparameter (weight) added in the VAE objective using the output KL-divergence as feedback during model training. The framework is evaluated using three applications; namely, language modeling, disentangled representation learning, and image generation. The results show that ControlVAE can achieve better disentangling and reconstruction quality than the existing methods. For language modelling, it not only averts the KL-vanishing, but also improves the diversity of generated text. Finally, we also demonstrate that ControlVAE improves the reconstruction quality of generated images compared to the original VAE.
研究动机与目标
- 在 VAE 中为 KL-散度权衡提供明确的控制,以适应不同应用场景的动机与目标。
- 开发一种可控的 VAE 框架,使用非线性 PI 控制器在训练过程中调节 KL 权重。
- 在多个数据集上展示重建质量、解耦以及文本/图像生成方面的改进。
提出的方法
- 引入一个非线性 PI 控制器,在 VAE 目标中自动调节 KL-权重 beta(t),以输出 KL 散度作为反馈。
- 将控制目标定义为在优化 VAE 重建项的同时,将 KL 散度稳定在用户指定的设定点 v_kl 上。
- 用非线性 PI 控制律制定 beta(t):beta(t) = K_p / (1 + exp(e(t))) - K_i sum_{j=0}^t e(j) + beta_min,其中 e(t) = v_kl - hat{v}_{kl}(t)。
- 加入反风up(anti-windup)和有界的 beta(t),以确保训练的稳定性。
- 将 ControlVAE 应用于语言建模、解耦表示学习和图像生成,以评估重建、KL-散度和任务特定指标之间的权衡。
实验结果
研究问题
- RQ1ControlVAE 能否在语言建模中避免 KL-vanishing,同时提升生成多样性?
- RQ2自动、基于反馈的 KL-散度调节是否会在不牺牲重建质量的前提下实现更好的解耦?
- RQ3可控的 KL-散度是否能在不压倒潜在分布的情况下改善图像生成的重建质量?
- RQ4与固定 beta 的 VAE 变体(beta-VAE、FactorVAE)相比,ControlVAE 在 MIG/解耦、重建损失和生成度量方面有何差异?
主要发现
- ControlVAE 在语言建模中避免了 KL-vanishing,并与基线相比提高了生成数据的多样性。
- ControlVAE 实现了比周期性退火更低的重建损失,并在所选设定点上保持了稳定的 KL-散度。
- 在解耦表示学习中,ControlVAE 取得了可比或更好的 MIG 得分,方差低于 Beta-VAE,并优于 FactorVAE。
- 在 CelebA 的图像生成中,采用更高 KL-散度的 ControlVAE(如 KL-200)获得更好的重建,并相对于原始 VAE 改善了 FID/SSIM。
- 在各任务中,ControlVAE 展现出可调的重建精度与 KL-散度之间的权衡,并实现了自动 beta(t) 调整。
- 定性结果显示,ControlVAE 能解耦多个潜在因子并保持输出的多样性且真实感强。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。