QUICK REVIEW

[论文解读] Deep Gaussian Processes

Andreas Damianou, Neil D. Lawrence|White Rose Research Online (University of Leeds, The University of Sheffield, University of York)|Nov 2, 2012

Gaussian Processes and Bayesian Inference参考文献 23被引用 272

一句话总结

本文提出了深度高斯过程（DGPs），一种分层贝叶斯模型，通过堆叠高斯过程来学习数据的深层、分层表征。通过使用变分推断近似边缘似然，该方法实现了自动模型选择，并在小样本数据集上成功学习到抽象特征，例如仅用150个手写数字样本即可构建五层层次结构。

ABSTRACT

In this paper we introduce deep Gaussian process (GP) models. Deep GPs are a deep belief network based on Gaussian process mappings. The data is modeled as the output of a multivariate GP. The inputs to that Gaussian process are then governed by another GP. A single layer model is equivalent to a standard GP or the GP latent variable model (GP-LVM). We perform inference in the model by approximate variational marginalization. This results in a strict lower bound on the marginal likelihood of the model which we use for model selection (number of layers and nodes per layer). Deep belief networks are typically applied to relatively large data sets using stochastic gradient descent for optimization. Our fully Bayesian treatment allows for the application of deep models even when data is scarce. Model selection by our variational bound shows that a five layer hierarchy is justified even when modelling a digit data set containing only 150 examples.

研究动机与目标

开发一种基于高斯过程的完全贝叶斯深度学习框架，实现合理的模型选择与不确定性量化。
通过利用高斯过程的归纳偏置和平滑性特性，解决在小样本数据集上训练深度模型的挑战。
证明即使数据有限，深度GP架构也能通过分层网络逐层学习到越来越抽象的表征。
提出一种可处理的推断方法，通过变分边际化避免对潜在变量进行不可计算的求和。
通过手写数字分类和特征抽象分析的实证评估，验证深度GP模型的有效性。

提出的方法

提出一种深度信念网络，其中每一层均为高斯过程映射，前一层GP的输出作为下一层的输入。
采用近似变分边际化方法，对潜在变量进行积分，从而获得边缘似然的严格下界。
将变分下界用作模型选择的目标函数，包括网络深度和每层节点数。
应用自动相关性确定（ARD）方法，学习每层输入维度的重要性，辅助特征抽象。
从顶层潜在空间采样，以可视化分层结构中抽象特征的演化过程。
使用潜在空间中的最近邻误差作为模型质量的代理指标，评估不同深度下的泛化性能。

实验结果

研究问题

RQ1当数据集较小时（例如仅150个样本），深度高斯过程是否仍能学习到数据的分层表征？
RQ2边缘似然的变分下界是否能有效指导深度GP架构中深度与宽度的选择？
RQ3深度GP模型的深层是否能捕获到越来越抽象的特征，这一结论是否可通过采样和最近邻分析得到验证？
RQ4在分类准确率和特征表征方面，深度GP模型与浅层GP模型相比表现如何？
RQ5基于其架构灵活性，深度GP模型是否可用于学习跨任务或非平稳数据的共享、解耦表征？

主要发现

五层深度GP模型在四维顶层潜在空间中实现了近乎完美的最近邻分类，仅有一例分类错误。
随着层数增加，边缘似然的变分下界持续上升，表明更深的架构更受数据支持。
单层GP模型即使使用十个潜在维度，仍出现五次分类错误，证明了深度的优势。
从低层采样可观察到局部特征（如数字中的封闭与开放圆圈），而从高层采样则产生更抽象、多样的模式。
ARD权重显示，高层网络更关注全局、抽象的特征，证实了分层抽象机制的存在。
该方法成功在仅150个手写数字样本的数据集中发现了五层层次结构，验证了其在小样本深度学习中的实用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。