Skip to main content
QUICK REVIEW

[论文解读] Stochastic Variational Deep Kernel Learning

Andrew Gordon Wilson, Zhiting Hu|arXiv (Cornell University)|Nov 1, 2016
Gaussian Processes and Bayesian Inference被引用 104
一句话总结

介绍了 SV-DKL,一种可扩展的深度核学习框架,将深度网络与加性高斯过程以及随机变分推断相结合,用于分类、多任务学习和大规模数据。

ABSTRACT

Deep kernel learning combines the non-parametric flexibility of kernel methods with the inductive biases of deep learning architectures. We propose a novel deep kernel learning model and stochastic variational inference procedure which generalizes deep kernel learning approaches to enable classification, multi-task learning, additive covariance structures, and stochastic gradient training. Specifically, we apply additive base kernels to subsets of output features from deep neural architectures, and jointly learn the parameters of the base kernels and deep network through a Gaussian process marginal likelihood objective. Within this framework, we derive an efficient form of stochastic variational inference which leverages local kernel interpolation, inducing points, and structure exploiting algebra. We show improved performance over stand alone deep networks, SVMs, and state of the art scalable Gaussian processes on several classification benchmarks, including an airline delay dataset containing 6 million training points, CIFAR, and ImageNet.

研究动机与目标

  • 激发对表达能力强、可扩展的核的需求,以利用深度表示解决大型分类问题。
  • 提出一种对深度网络特征应用的基于加性核的深度核学习模型。
  • 开发利用局部核插值和诱导点实现可扩展性的随机变分推断过程。
  • 通过边际似然目标共同学习深度网络参数、基核超参数和混合矩阵。

提出的方法

  • 将输入通过深度神经网络映射以产生最终层特征。
  • 在一个加性核层中,对这些特征的子集应用 J 个带基核的高斯过程。
  • 通过混合矩阵 A 线性混合高斯过程输出,以产生相关的多任务输出。
  • 通过最大化高斯过程边际似然并结合随机变分推断目标来优化所有参数。
  • 使用带诱导点的局部核插值和克罗内克结构的采样器实现可扩展推断。
  • 提供一个针对诱导变量变分后验的快速采样方案,结合结构化代数以提高效率。

实验结果

研究问题

  • RQ1带有加性高斯过程的深度核学习模型是否能提升大规模数据集上的分类性能?
  • RQ2如何设计随机变分推断,使深度核方法在不牺牲精度的前提下扩展到数百万个数据点?
  • RQ3联合学习深度网络、基核和输出混合是否能有效捕捉多任务相关性?
  • RQ4在多样化任务(航班延误、UCI、图像数据)上,SV-DKL 与独立的 DNN 和最先进的可扩展 GP 方法相比如何?

主要发现

  • SV-DKL 在若干分类基准测试中优于独立的深度网络和可扩展的 GP 基线。
  • 该方法可扩展至大规模数据集(例如航班延误数据集约为 590 万个点),复杂度为 O(m1+1/D),其中 m 为诱导点数量,D 为输入维度。
  • 对深度特征、基核和混合矩阵的联合训练在预测性能上优于非端到端或单成分模型。
  • 实证结果表明,与 KLSP-GP 和其他可扩展 GP 方法相比,SV-DKL 提供了具有竞争力或更优的准确性,在图像任务上常常超越基于 CNN 的方法。
  • 该模型通过混合矩阵 A 实现可解释的深度协方差结构和多输出相关性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。