[论文解读] Tighter Variational Bounds are Not Necessarily Better
本文挑战了变分自编码器中更紧的变分界总是能提升学习效果的假设,表明在重要性加权自编码器(IWAE)中增加重要性样本数(K)会降低推理网络梯度的信噪比(SNR),从而损害其训练。为解决此问题,作者提出了三种新算法——PIWAE、MIWAE 和 CIWAE,通过新颖的方式使用加权重要性采样,以改善推理网络的训练,同时保持或提升生成模型的性能。
We provide theoretical and empirical evidence that using tighter evidence lower bounds (ELBOs) can be detrimental to the process of learning an inference network by reducing the signal-to-noise ratio of the gradient estimator. Our results call into question common implicit assumptions that tighter ELBOs are better variational objectives for simultaneous model learning and inference amortization schemes. Based on our insights, we introduce three new algorithms: the partially importance weighted auto-encoder (PIWAE), the multiply importance weighted auto-encoder (MIWAE), and the combination importance weighted auto-encoder (CIWAE), each of which includes the standard importance weighted auto-encoder (IWAE) as a special case. We show that each can deliver improvements over IWAE, even when performance is measured by the IWAE target itself. Furthermore, our results suggest that PIWAE may be able to deliver simultaneous improvements in the training of both the inference and generative networks.
研究动机与目标
- 探究在近似变分推断中,更紧的证据下界(ELBO)是否普遍改善训练效果。
- 识别在 IWAE 中增加重要性样本数(K)如何降低推理网络梯度的信噪比(SNR)。
- 开发新的变分推断算法,以改善推理网络的训练,而不牺牲生成模型的性能。
- 证明改进的推理网络学习能带来更好的后验近似,即使以标准 IWAE 目标函数衡量也是如此。
提出的方法
- 提出部分重要性加权自编码器(PIWAE),通过使用部分重要性权重来改善推理网络梯度的信噪比。
- 引入多重重要性加权自编码器(MIWAE),通过多次独立的重要性采样运行并共享权重来提升梯度质量。
- 开发组合重要性加权自编码器(CIWAE),通过结合多种重要性采样策略来平衡生成模型与推理网络的训练。
- 在所有方法中使用相同的一组重要性权重,但采用不同的加权方案以控制梯度方差与信号强度。
- 设计算法时使 IWAE 成为其特例,确保向后兼容并可直接比较。
- 使用合成高斯模型和真实世界数据集对方法进行评估,通过 IWAE 目标函数、KL 散度和对数似然值衡量性能。
实验结果
研究问题
- RQ1在 IWAE 中增加重要性样本数(K)是否总是能改善推理网络的训练?
- RQ2尽管降低方差,为何在 IWAE 中增加 K 会降低推理网络梯度估计的信噪比(SNR)?
- RQ3我们能否设计出替代的变分目标,以在保持对数似然紧界的同时,提升推理网络梯度的信噪比?
- RQ4所提出的算法 PIWAE、MIWAE 和 CIWAE 在 IWAE 目标函数下是否能实现比 IWAE 更好的后验近似?
- RQ5在 ELBO 的紧致性与推理网络质量之间是否存在权衡?若存在,能否实现优化?
主要发现
- 在 IWAE 中增加 K 会降低推理网络梯度估计的信噪比,尽管方差减小,因为真实梯度幅值下降得更快。
- 随着 K 增加,推理网络梯度的信噪比(SNR)恶化,导致优化性能下降,即使边界更紧。
- PIWAE 在 KL 散度指标上优于 IWAE,实现了更低的后验近似误差,同时保持或提升了 IWAE 目标函数的性能。
- MIWAE 和 CIWAE 在 KL 散度指标上优于 IWAE,同时在 IWAE 目标函数上保持与之相当的性能,表明推理网络学习得到了改善。
- 在一个简单的高斯问题中,设置 K=1 且 M=1000 时,推理网络和生成网络参数的收敛效果最佳,这与‘更高 K 值总是更好’的假设相矛盾。
- 所有提出的算法——PIWAE、MIWAE 和 CIWAE——在 IWAE 目标函数本身上均优于 IWAE,证明更紧的边界并非性能提升的必要条件。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。