QUICK REVIEW

[论文解读] Random Feature Expansions for Deep Gaussian Processes

Kurt Cutajar, Edwin V. Bonilla|Graduate School and Research Center in Digital Science (EURECOM)|Oct 14, 2016

Gaussian Processes and Bayesian Inference参考文献 31被引用 83

一句话总结

该论文提出了一种基于随机特征展开的可扩展深度高斯过程（DGP）框架，用于近似协方差函数，从而实现高效的贝叶斯学习。该方法通过随机变分推断实现，可在单台机器上无需GPU的情况下，对大规模数据集（如MNIST8M，800万样本；AIRLINE，500万架次航班）进行高效、概率性学习，支持高达30层的深层结构，在准确率和不确定性量化方面优于现有的DGP与DNN基线模型。

ABSTRACT

The composition of multiple Gaussian Processes as a Deep Gaussian Process (DGP) enables a deep probabilistic nonparametric approach to flexibly tackle complex machine learning problems with sound quantification of uncertainty. Existing inference approaches for DGP models have limited scalability and are notoriously cumbersome to construct. In this work, we introduce a novel formulation of DGPs based on random feature expansions that we train using stochastic variational inference. This yields a practical learning framework which significantly advances the state-of-the-art in inference for DGPs, and enables accurate quantification of uncertainty. We extensively showcase the scalability and performance of our proposal on several datasets with up to 8 million observations, and various DGP architectures with up to 30 hidden layers.

研究动机与目标

解决深度高斯过程（DGPs）在大规模和深层架构中面临的可扩展性与计算不可行性问题。
开发一种实用的、概率化的DGP推断框架，支持不确定性量化与高效训练。
克服现有DGP推断方法的局限性，这些方法通常局限于浅层网络且缺乏小批量可扩展性。
证明随机特征展开可生成具有可解释先验与低秩权重矩阵的贝叶斯基于深度神经网络。
实现对包含数百万条观测数据的大型数据集的深层概率模型训练，此前此类任务在DGP中被认为不可行。

提出的方法

使用随机特征展开（Rahimi & Recht, 2008）近似DGP中所有高斯过程层的协方差函数，将协方差函数转换为显式特征映射。
采用小批量梯度优化的随机变分推断（SVI），实现对大规模数据集的可扩展训练。
采用概率建模方法，将随机特征视为具有结构化先验的隐变量，支持贝叶斯学习。
利用TensorFlow中的自动微分计算SVI的梯度，避免手动推导。
通过随机特征实现低秩权重矩阵，从而获得具有可解释先验的DNN类架构。
通过不同的特征展开方式，同时支持RBF（三角函数激活）与ARC-COSINE（类似ReLU）核函数。

实验结果

研究问题

RQ1随机特征展开是否能够实现在大规模数据集上深度高斯过程的可扩展且可处理的推断？
RQ2所提出的基于随机特征的DGP与标准DNN及其他DGP推断方法相比，在准确率与不确定性量化方面表现如何？
RQ3该框架是否能够扩展到包含数百万条观测数据的深层架构（如30层）？
RQ4结合随机特征的随机变分推断是否能在保持DGP概率本质的同时实现高效训练？
RQ5与最先进的GP和DNN基线相比，该模型在真实世界大规模回归与分类任务中的表现如何？

主要发现

在MNIST8M数据集（800万样本）上，所提出的基于随机特征的DGP模型取得了99.14%的测试准确率，与AutoGP（99.11%）相当，且在不确定性量化方面显著优于标准DNN。
在AIRLINE数据集（500万架次航班）上，模型达到78.1%的准确率与0.457的MNLL，与Wilson等人（2016）的最先进GP方法性能相当。
在AIRLINE数据集上，30层模型的训练在两小时内完成，证明了其可扩展性与高效性。
通过100个小批量的箱线图验证，负下界（negative lower bound）是一个可靠的模型选择目标。
该框架在不确定性指标上优于使用Dropout训练的DNN，表明其具有更优的不确定性量化能力。
该方法在无GPU环境下也取得了具有竞争力的结果，且设计上支持通过GPU与分布式计算进一步扩展。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。