Skip to main content
QUICK REVIEW

[论文解读] Variational Auto-encoded Deep Gaussian Processes

Zhenwen Dai, Andreas Damianou|arXiv (Cornell University)|Nov 19, 2015
Gaussian Processes and Bayesian Inference参考文献 35被引用 63
一句话总结

本文提出变分自编码器-深度高斯过程(VAE-DGP),一种可扩展的贝叶斯非参数生成模型,通过将深度高斯过程与识别模型(多层感知机)结合,实现高效、分布式变分推断。通过识别网络对变分后验进行重参数化,该方法避免了变分参数随数据集规模线性增长的问题,并推导出一种分布式变分下界,从而在大规模数据集上实现高效的深度无监督学习与贝叶斯优化,同时提升了不确定性量化与预测准确性。

ABSTRACT

We develop a scalable deep non-parametric generative model by augmenting deep Gaussian processes with a recognition model. Inference is performed in a novel scalable variational framework where the variational posterior distributions are reparametrized through a multilayer perceptron. The key aspect of this reformulation is that it prevents the proliferation of variational parameters which otherwise grow linearly in proportion to the sample size. We derive a new formulation of the variational lower bound that allows us to distribute most of the computation in a way that enables to handle datasets of the size of mainstream deep learning tasks. We show the efficacy of the method on a variety of challenges including deep unsupervised learning and deep Bayesian optimization.

研究动机与目标

  • 通过重新表述变分推断,解决深度高斯过程(DGPs)在大规模数据集上的可扩展性限制。
  • 通过引入识别模型,简化优化过程并消除深度高斯过程中对每个样本的变分参数的需求。
  • 开发一种分布式变分下界,实现在主流深度学习数据集上的高效计算。
  • 展示该模型在深度无监督学习与贝叶斯优化中的有效性,同时提升不确定性量化能力。
  • 将非参数贝叶斯模型的应用范围扩展至大规模、复杂的生成建模任务。

提出的方法

  • 通过多层感知机(MLP)识别模型增强深度高斯过程,以参数化变分后验分布。
  • 通过识别网络对变分后验进行重参数化,将推断过程与数据规模解耦,避免变分参数随数据量线性增长。
  • 推导出一种新的分布式变分下界形式,实现层间计算分布,支持小批量训练。
  • 使用随机变分推断结合蒙特卡洛采样,近似计算难以解析求解的后验期望。
  • 采用分层结构,其中每一层的潜在变量均通过高斯过程先验建模,识别网络则将观测值映射至近似后验均值。
  • 通过引入 Duvenaud 等人(2014)提出的深度 GP 改进方法,在输入层与输出层之间增加直接连接,以提升模型稳定性。

实验结果

研究问题

  • RQ1能否通过识别模型将深度高斯过程扩展至大规模数据集,以简化变分推断?
  • RQ2所提出的分布式变分下界形式是否能实现在大规模数据集上的高效训练?
  • RQ3VAE-DGP 模型是否能在深度无监督与监督学习任务中超越标准高斯过程与线性回归?
  • RQ4VAE-DGP 模型在贝叶斯优化中对复杂非平稳函数结构的捕捉能力如何?
  • RQ5识别模型是否能在保持模型表达能力的同时,消除对每个样本的变分参数的需求?

主要发现

  • 在鲍鱼数据集上,VAE-DGP 的均方误差(MSE)为 825.31 ± 64.35,优于标准高斯过程(888.96 ± 78.22)与线性回归(917.31 ± 53.76)。
  • 在蠕变数据集上,VAE-DGP 的 MSE 为 575.39 ± 29.10,显著优于高斯过程(602.11 ± 29.59)与线性回归(1865.76 ± 23.36)。
  • 在非平稳 Branin 函数的贝叶斯优化中,VAE-DGP 在早期优化阶段优于标准高斯过程,因其能更好地建模多峰与非平稳的输出分布。
  • 分布式变分下界形式通过层间计算分布,有效提升了大规模数据集上的训练效率,并缓解了内存瓶颈问题。
  • 识别模型有效参数化了后验分布,消除了对每个样本的变分参数需求,简化了优化过程。
  • 该模型在无监督表征学习与监督回归任务中均表现出色,同时提升了不确定性量化与预测准确性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。