QUICK REVIEW

[论文解读] Neural Variational Inference and Learning in Belief Networks

Andriy Mnih, Karol Gregor|arXiv (Cornell University)|Jan 31, 2014

Domain Adaptation and Few-Shot Learning参考文献 27被引用 204

一句话总结

本文提出了神经变分推断与学习（NVIL）方法，通过前馈推理网络实现对变分后验分布的快速、精确采样，从而训练有向信念网络。通过联合优化模型与推理网络，利用方差减少的梯度估计方法最大化变分下界，NVIL在MNIST和Reuters RCV1数据集上实现了最先进性能，优于wake-sleep算法及其他先前方法。

ABSTRACT

Highly expressive directed latent variable models, such as sigmoid belief networks, are difficult to train on large datasets because exact inference in them is intractable and none of the approximate inference methods that have been applied to them scale well. We propose a fast non-iterative approximate inference method that uses a feedforward network to implement efficient exact sampling from the variational posterior. The model and this inference network are trained jointly by maximizing a variational lower bound on the log-likelihood. Although the naive estimator of the inference model gradient is too high-variance to be useful, we make it practical by applying several straightforward model-independent variance reduction techniques. Applying our approach to training sigmoid belief networks and deep autoregressive networks, we show that it outperforms the wake-sleep algorithm on MNIST and achieves state-of-the-art results on the Reuters RCV1 document dataset.

研究动机与目标

为在大规模数据集上训练高度表达的有向潜变量模型（如sigmoid信念网络）提供解决方案，其中精确推断不可行。
克服现有近似推断方法的局限性，这些方法或扩展性差，或需要针对模型的特定推导。
开发一种通用、可扩展且内存高效的有向图模型训练方法，支持离散与连续潜变量。
通过使用具有实用梯度估计的变分下界，实现生成模型与推理网络的联合训练。
在MNIST和Reuters RCV1等基准数据集上验证该方法的有效性，实现最先进性能。

提出的方法

提出使用前馈神经网络作为推理网络，针对给定观测值实现对变分后验分布的快速、精确采样。
通过最大化对数似然的变分下界，联合训练模型与推理网络，采用随机梯度估计方法。
应用通用的方差减少技术（如基线减法与控制变量），使高方差的梯度估计器在推理网络训练中具有实用性。
采用REINFORCE算法框架，实现对随机采样过程的反向传播，支持端到端训练。
支持离散与连续潜变量，以及变分后验中的复杂依赖结构，优于以往方法中受限的假设。
通过避免在训练样本间存储潜变量状态，实现在线学习，提升内存效率。

实验结果

研究问题

RQ1能否使用非迭代的前馈推理网络，实现有向信念网络的高效且可扩展训练？
RQ2能否通过方差减少的梯度估计，使朴素的REINFORCE梯度估计器在推理网络训练中变得实用？
RQ3所提出的方法是否优于wake-sleep等现有算法，在sigmoid信念网络训练中表现更优？
RQ4NVIL能否在具有复杂高维数据的大规模文档建模任务中实现最先进性能？
RQ5该方法是否足够通用，可处理离散与连续潜变量及复杂后验结构，而无需针对模型进行特定推导？

主要发现

在MNIST数据集上，NVIL优于wake-sleep算法，采用200-200-200 SBN架构时，测试负对数似然为94.5。
在Reuters RCV1数据集上，fDARN模型（200个潜变量）实现了598的困惑度，创下新的最先进记录。
fDARN模型（50个潜变量）在RCV1上实现724的困惑度，优于DocNADE的最佳公开结果742。
在20 Newsgroups数据集上，NVIL表现具有竞争力，fDARN（50个潜变量）的困惑度为917，优于LDA与Replicated Softmax。
该方法具有可扩展性与内存效率，由于无需在更新间存储潜变量状态，支持在线学习。
该方法具有通用性，适用于多种模型架构，支持离散与连续潜变量，而以往变分方法受限于特定假设。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。