QUICK REVIEW

[论文解读] A Deep and Tractable Density Estimator

Benigno Uría, Iain Murray|arXiv (Cornell University)|Oct 7, 2013

Gaussian Processes and Bayesian Inference参考文献 19被引用 104

一句话总结

本文提出一种用于神经自回归密度估计器（NADE）的顺序无关训练方法，通过在所有变量顺序之间共享参数，同时为每种可能的变量顺序训练一个NADE模型。该方法支持精确的边缘化与条件化，可扩展至深层架构且计算开销仅线性增长，支持即时集成模型构建，在密度估计任务中达到最先进性能，包括在BSDS300图像块数据集上使用6层模型实现155.2的对数似然得分。

ABSTRACT

The Neural Autoregressive Distribution Estimator (NADE) and its real-valued version RNADE are competitive density models of multidimensional data across a variety of domains. These models use a fixed, arbitrary ordering of the data dimensions. One can easily condition on variables at the beginning of the ordering, and marginalize out variables at the end of the ordering, however other inference tasks require approximate inference. In this work we introduce an efficient procedure to simultaneously train a NADE model for each possible ordering of the variables, by sharing parameters across all these models. We can thus use the most convenient model for each inference task at hand, and ensembles of such models with different orderings are immediately available. Moreover, unlike the original NADE, our training procedure scales to deep models. Empirically, ensembles of Deep NADE models obtain state of the art density estimation performance.

研究动机与目标

为解决NADE中固定变量顺序的局限性，该局限性阻碍了对任意变量子集的高效边缘化与条件化。
实现深层NADE模型的训练，且相对于浅层模型仅带来线性计算开销。
支持在无需额外训练成本的前提下，即时构建不同顺序下NADE模型的集成。
提升真实世界数据集上的密度估计性能，尤其针对高维数据（如图像块）的性能。

提出的方法

通过在所有排列间共享参数，训练一个单一共享模型，隐式表示每种可能变量顺序下的NADE。
使用随机梯度下降优化所有顺序上的平均负对数似然，实现所有因子数模型的联合训练。
利用递归计算隐藏激活（通过公式5）以保持效率，即使在深层架构中亦然。
利用不同顺序之间的不一致性，实现即时生成集成模型，提升泛化能力与似然估计性能。
在RNADE扩展中应用混合密度网络（MDNs）以处理实值数据，支持连续分布建模。
采用早停与学习率调度策略以防止过拟合，即使在深层模型与大量层数下亦有效。

实验结果

研究问题

RQ1我们能否训练一个单一模型，使其在不固定单一顺序的前提下，支持任意变量子集的精确边缘化与条件化？
RQ2是否可能在不产生超线性计算成本的前提下，将NADE扩展至深层架构？
RQ3能否通过在不同顺序下训练的NADE模型集成，提升密度估计性能，而无需显式训练集成模型？
RQ4该顺序无关训练方法是否在BSDS300图像块等基准数据集上达到最先进性能？

主要发现

所提方法在BSDS300数据集中8×8自然图像块上达到157.0的测试集对数似然，优于所有先前方法，包括高斯混合模型与固定顺序的RNADE。
使用顺序无关方法训练的6隐藏层RNADE模型实现155.2的对数似然，优于固定顺序基线（152.1）及所有浅层模型。
32个顺序的集成模型（EoRNADE 6hl 32 ord.）达到157.0的对数似然，表明即时集成在极低推理成本下显著提升性能。
该方法随深度线性扩展：训练6层模型的计算量仅相对于浅层模型线性增加。
即使在6个隐藏层下也未观察到过拟合现象，且验证损失未持续上升，表明进一步提升性能的潜力存在于更深模型中。
该方法支持精确采样与边缘化，不同于基于MCMC或变分推断的方法，同时保持可 tractable 的似然计算。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。