QUICK REVIEW

[论文解读] Gaussian Processes: A Quick Introduction

Mark Ebden|arXiv (Cornell University)|May 12, 2015

Gaussian Processes and Bayesian Inference被引用 97

一句话总结

本文为回归与分类任务中的高斯过程（GPs）提供了简明介绍，解释了如何通过核函数和贝叶斯推断非参数化地建模函数。通过在潜在函数上进行边缘化，推导出新输入的预测分布，表明高斯过程回归可通过涉及核矩阵和矩阵求逆的闭式解，同时提供预测结果与不确定性估计。

ABSTRACT

A gentle introduction to Gaussian processes (GPs). The three parts of the document consider GPs for regression, classification, and dimensionality reduction.

研究动机与目标

介绍高斯过程作为一种灵活的非参数贝叶斯方法，用于回归与分类。
解释高斯过程如何通过均值函数与协方差函数对函数进行建模，其中平方指数核为标准选择。
在多元正态框架下，利用条件概率推导新输入的预测分布。
通过softmax函数与拉普拉斯近似，将框架扩展至多分类问题。
强调超参数优化与核参数上的模型平均在实现稳健推断中的重要性。

提出的方法

将潜在函数 $ f(x) $ 建模为均值为零、协方差函数为 $ k(x,x') = \sigma_f^2 \exp\big(-\frac{(x-x')^2}{2l^2}\big) + \sigma_n^2 \delta(x,x') $ 的高斯过程，包含观测噪声。
使用训练输出 $ \mathbf{y} $ 与测试预测 $ y_* $ 的联合高斯分布，表示为 $ \begin{bmatrix}\mathbf{y} \\ y_*\end{bmatrix} \sim \mathcal{N}\big(\mathbf{0}, \begin{bmatrix}K & K_*^T \\ K_* & K_{**}\end{bmatrix}\big) $。
推导预测分布 $ y_*|\mathbf{y} \sim \mathcal{N}(K_*K^{-1}\mathbf{y},~{} K_{**} - K_*K^{-1}K_*^T) $，同时获得均值预测与预测方差。
通过最大化对数边际似然，利用拉普拉斯近似对边际似然 $ p(\mathbf{y}|\mathbf{x},\boldsymbol{\theta}) $ 进行近似，以实现超参数优化。
通过建模多个潜在函数，结合softmax链接函数并利用拉普拉斯方法近似后验分布，将框架扩展至多分类问题。
推导多分类GPD的近似对数边际似然为 $ p(\mathbf{y}|\mathbf{x},\boldsymbol{\theta}) = -\frac{1}{2}\hat{\mathbf{f}}^T K^{-1}\hat{\mathbf{f}} + \mathbf{y}^T \hat{\mathbf{f}} - \sum_i \log\big(\sum_c \exp\hat{f}_i^c\big) - \frac{1}{2}\log(|K||K^{-1}+W|) $。

实验结果

研究问题

RQ1非参数贝叶斯方法如高斯过程如何在回归中同时提供预测与不确定性估计？
RQ2协方差函数在决定预测函数的平滑性与相关性结构中起什么作用？
RQ3高斯过程回归中的预测分布如何从多元正态分布的条件分布中推导得出？
RQ4如何通过潜在函数与softmax变换将高斯过程分类扩展至多分类问题？
RQ5当精确边际似然最大化不可行时，拉普拉斯近似在超参数优化中起什么作用？

主要发现

新输入 $ x_* $ 的预测均值为 $ \overline{y}_* = K_*K^{-1}\mathbf{y} $，即使用基于核函数的权重对训练输出进行加权平均。
预测方差为 $ \mathrm{var}(y_*) = K_{**} - K_*K^{-1}K_*^T $，当 $ x_* $ 接近训练点时减小，反映置信度提高。
在图1的示例中，当 $ \sigma_n = 0.3 $，$ \sigma_f^2 = 1.0 $，$ l = 1.0 $ 时，$ x_* = 0.2 $ 处的预测值约为 1.46，方差约为 0.22。
通过最大化 $ p(\mathbf{y}|\mathbf{x},\boldsymbol{\theta}) $ 优化边际似然，利用核超参数 $ \sigma_f $ 与 $ l $ 平衡模型拟合度与复杂度。
在多分类分类中，潜在函数的后验均值估计为 $ \hat{\mathbf{f}} = K(\mathbf{y} - \hat{\boldsymbol{\pi}}) $，不确定性由协方差矩阵 $ (K^{-1} + W)^{-1} $ 捕获。
多分类GPD的对数边际似然包含数据拟合项、潜在变量的对数和指数项，以及通过核矩阵与费舍尔信息矩阵行列式实现的复杂度惩罚项。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。