Skip to main content
QUICK REVIEW

[论文解读] Reweighted Wake-Sleep

Jörg Bornschein, Yoshua Bengio|arXiv (Cornell University)|Jun 11, 2014
Generative Adversarial Networks and Image Synthesis参考文献 20被引用 32
一句话总结

本文提出了重加权唤醒-睡眠(RWS),一种用于深度有向生成模型的新训练方法,通过使用来自推理网络的多个重要性采样潜在变量来减少似然梯度估计器中的偏差,从而改进唤醒-睡眠算法。实验表明,RWS在更深的架构以及更强大的自回归推理网络(如NADE)下,显著优于标准唤醒-睡眠算法的对数似然性能。

ABSTRACT

Training deep directed graphical models with many hidden variables and performing inference remains a major challenge. Helmholtz machines and deep belief networks are such models, and the wake-sleep algorithm has been proposed to train them. The wake-sleep algorithm relies on training not just the directed generative model but also a conditional generative model (the inference network) that runs backward from visible to latent, estimating the posterior distribution of latent given visible. We propose a novel interpretation of the wake-sleep algorithm which suggests that better estimators of the gradient can be obtained by sampling latent variables multiple times from the inference network. This view is based on importance sampling as an estimator of the likelihood, with the approximate inference network as a proposal distribution. This interpretation is confirmed experimentally, showing that better likelihood can be achieved with this reweighted wake-sleep procedure. Based on this interpretation, we propose that a sigmoidal belief network is not sufficiently powerful for the layers of the inference network in order to recover a good estimator of the posterior distribution of latent variables. Our experiments show that using a more powerful layer model, such as NADE, yields substantially better generative models.

研究动机与目标

  • 解决具有大量潜在变量的深度有向图模型的训练挑战,其中精确似然计算是不可行的。
  • 改进唤醒-睡眠算法,该算法由于单一样本推理而存在梯度估计偏差。
  • 探究更强大的推理网络架构(如自回归模型NADE)是否能更好地近似真实后验分布并提升生成性能。
  • 证明对推理网络生成的多个样本进行重加权,可得到方差更小、偏差更低的对数似然梯度估计器。
  • 在标准基准(如MNIST和CalTech 101轮廓)上评估RWS的有效性,并与最先进方法进行比较。

提出的方法

  • 将唤醒-睡眠算法重新解释为单一样本的重要性采样特例,将其视为边缘似然的估计器。
  • 提出重加权唤醒-睡眠(RWS),使用来自推理网络的K个独立同分布样本,计算似然梯度的重加权估计。
  • 应用重要性采样来近似真实对数似然,使用推理网络作为提议分布,并推导出重加权梯度估计器。
  • 使用重加权似然估计进行梯度上升训练生成模型,同时训练推理网络以更好地近似真实后验分布。
  • 在推理网络中使用自回归模型(如NADE)来建模非因子化的后验分布,从而在标准Sigmoid信念网络之上提升后验近似能力。
  • 通过仅在每层内部传播梯度,实现层间训练解耦,从而在无需逐层预训练或精细学习率调优的情况下,实现深层架构的稳定训练。

实验结果

研究问题

  • RQ1来自推理网络的多个重要性采样潜在变量是否能减少深度生成模型梯度估计器中的偏差?
  • RQ2用更强大的自回归模型(如NADE)替代推理网络中的标准Sigmoid信念网络,是否能改善后验近似和生成性能?
  • RQ3重加权过程中样本数K如何影响似然估计质量和模型性能?
  • RQ4RWS是否能有效训练深层架构(如5层及以上),而无需逐层预训练或精细学习率调优?
  • RQ5在生成模型本身中使用自回归层是否能带来更好的性能?如果是,为何浅层模型仍为最优?

主要发现

  • 当K=5时,RWS在测试集对数似然性能显著优于标准唤醒-睡眠(K=1),5或10个样本已足够实现良好性能。
  • 即使生成模型仅使用因子化SBN层,基于NADE的推理网络也能提升性能,证明了表达性强后验近似的重要性。
  • 使用RWS训练的深层SBN/SBN 10-100-200-300-400模型在CalTech 101轮廓数据集上达到-116.9的测试集对数似然,优于以往最先进结果。
  • 在CalTech 101轮廓数据集中表现最佳的模型是浅层NADE/NADE-150网络,对数似然为-104.3,超越了先前最先进水平-107.8。
  • 在MNIST数据集上,RWS训练的模型始终优于经典唤醒-睡眠算法,尤其在深层架构中表现更优,并与DARN等先进模型相当或更优。
  • 尽管性能有所提升,但当模型为浅层时,生成网络中包含自回归层的模型始终表现最佳,表明深层自回归架构可能存在优化挑战。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。