[论文解读] Flexible and accurate inference and learning for deep generative models
该论文提出了一种新型的分布式分布码(DDC)亥姆霍兹机,通过将后验分布表示为充分统计量的期望值而非参数形式,实现了灵活且精确的后验近似,从而训练深度生成模型。该方法在合成数据、图像块和MNIST数据上均显著优于当前最先进方法(如VAE、IWAE和VIMCO),在似然度和分布拟合方面表现更优。
We introduce a new approach to learning in hierarchical latent-variable generative models called the "distributed distributional code Helmholtz machine", which emphasises flexibility and accuracy in the inferential process. In common with the original Helmholtz machine and later variational autoencoder algorithms (but unlike adverserial methods) our approach learns an explicit inference or "recognition" model to approximate the posterior distribution over the latent variables. Unlike in these earlier methods, the posterior representation is not limited to a narrow tractable parameterised form (nor is it represented by samples). To train the generative and recognition models we develop an extended wake-sleep algorithm inspired by the original Helmholtz Machine. This makes it possible to learn hierarchical latent models with both discrete and continuous variables, where an accurate posterior representation is essential. We demonstrate that the new algorithm outperforms current state-of-the-art methods on synthetic, natural image patch and the MNIST data sets.
研究动机与目标
- 解决在分层隐变量模型中,由后验近似形式受限所引入的偏差问题。
- 实现对包含离散与连续隐变量(包括分层结构)的复杂生成模型的精确学习。
- 克服现有方法(如VAE和IWAE)依赖参数化或基于采样的后验表示所存在的局限性。
- 开发一种无需对随机隐层进行反向传播的训练算法,同时保持高精度的后验估计。
- 在基准数据集(包括合成数据、自然图像块和二值化MNIST)上展示优越性能。
提出的方法
- 使用期望充分统计量(DDC)表示后验分布,实现无需假设特定参数形式的灵活、非参数化后验近似。
- 扩展唤醒-睡眠算法,联合训练生成模型与识别模型,利用生成模型的样本更新识别网络。
- 将学习过程分解为逐层更新,实现无需对随机隐层反向传播梯度的训练。
- 使用具有可学习参数的识别网络,将观测映射为后验的DDC表示,实现摊销推理。
- 利用指数族分布表示条件似然,确保可计算的采样与充分统计量的高效计算。
- 采用带有高斯核的相对MMD检验,评估生成数据与真实数据之间的分布相似性,以测试集作为参考分布。
实验结果
研究问题
- RQ1非参数化后验表示是否能提升分层深度生成模型中推理与学习的准确性?
- RQ2DDC亥姆霍兹机在建模混合离散与连续隐变量的复杂数据分布时,与VAE、IWAE和VIMCO相比表现如何?
- RQ3DDC表示在不依赖参数族或采样方法的前提下,能在多大程度上捕捉丰富的后验结构?
- RQ4避免对随机层进行梯度反向传播是否会影响模型性能或训练稳定性?
- RQ5DDC-HM能否在不同数据模态(包括合成数据、自然图像块和二值化MNIST)上实现良好泛化?
主要发现
- 在自然图像块上,DDC亥姆霍兹机的分布拟合显著优于IWAE(k=50),所有测试架构的p值均小于10^-87。
- 在二值化MNIST上,DDC-HM的MMD值为2×10^-3,低于VIMCO的6×10^-4,p值小于10^-20,表明其对真实数据分布的拟合更优。
- 在合成数据上,该方法优于VAE和IWAE,即使在复杂分层结构下也能准确恢复真实生成过程。
- DDC表示无需假设特定参数形式即可实现精确的后验近似,从而降低了因变分族不匹配带来的偏差。
- 该算法在不同隐变量维度(如D1=100,D2=10)下均保持高性能,展现出鲁棒性与可扩展性。
- 相对MMD检验确认,DDC-HM生成的样本在远高于竞争方法的置信水平下与真实数据在统计上无法区分。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。