[论文解读] Robust Gaussian Process Regression with Huber Likelihood
本文引入一种使用 Huber 似然的 GP 回归框架,以实现对离群值的鲁棒性,采用投影统计量对残差进行加权,并通过 Laplace 近似和 MCMC 演示推断;它将 GP-Huber 与基于 t 分布和 Laplace 似然的 GP 模型在合成数据和真实数据上进行比较。
Gaussian process regression in its most simplified form assumes normal homoscedastic noise and utilizes analytically tractable mean and covariance functions of predictive posterior distribution using Gaussian conditioning. Its hyperparameters are estimated by maximizing the evidence, commonly known as type II maximum likelihood estimation. Unfortunately, Bayesian inference based on Gaussian likelihood is not robust to outliers, which are often present in the observational training data sets. To overcome this problem, we propose a robust process model in the Gaussian process framework with the likelihood of observed data expressed as the Huber probability distribution. The proposed model employs weights based on projection statistics to scale residuals and bound the influence of vertical outliers and bad leverage points on the latent functions estimates while exhibiting a high statistical efficiency at the Gaussian and thick tailed noise distributions. The proposed method is demonstrated by two real world problems and two numerical examples using datasets with additive errors following thick tailed distributions such as Students t, Laplace, and Cauchy distribution.
研究动机与目标
- 在噪声具高尾分布或包含离群值时,推动高斯过程模型中的鲁棒回归。
- 开发一个使用 Huber 损失和基于投影统计的权重来降低离群值影响的 GP-Huber 回归模型。
- 为 GP-Huber 模型提供近似贝叶斯推断方法(Laplace 近似和混合 MCMC)以及超参数估计。
- 在具有厚尾误差的合成数据集和实际应用中评估所提方法,以展示鲁棒性和准确性。
提出的方法
- 为潜在函数 f 设定高斯过程先验,观测值采用非高斯(Huber)似然。
- 使用投影统计量来标准化残差,计算对残差的鲁棒权重。
- 采用基于 Huber 损失的似然,将对正则点呈现高斯样行为、对离群点呈现重尾特性相结合。
- 使用尺度混合表示和 Laplace 近似来推导近似边际似然和 MAP 估计。
- 在使用 Huber 似然时,采用 Hybrid Monte Carlo (HMC) 从后验中采样,以实现鲁棒推断。
- 在不同近似推断方案(Laplace、EP、MCMC)下,将 GP-Huber 与具有 Student’s t 和 Laplace 似然的 GP 模型进行比较。
实验结果
研究问题
- RQ1在高斯过程回归中基于 Huber 的似然是否能对垂直离群点和伪杠杆点提供鲁棒性?
- RQ2在厚尾噪声下,GP-Huber 与使用 Student’s t 或 Laplace 似然的 GP 模型相比表现如何?
- RQ3哪些近似贝叶斯技术(Laplace、HMC)对 GP-Huber 的推断有效,以及它们如何影响预测性能和不确定性?
- RQ4基于投影统计的权重是否能有效地对有影响的离群值进行降权,同时不牺牲对高斯样数据的效率?
主要发现
- GP-Huber 通过投影统计权重和 Huber 损失对被污染的残差进行降权,从而实现对离群值的鲁棒性。
- Laplace 近似和 Hybrid Monte Carlo 即使在非高斯似然下,也能实现 GP-Huber 模型的可行推断。
- 与具有 Student’s t 和 Laplace 似然的 GP 模型相比,GP-Huber 在厚尾噪声设置下表现出具有竞争力的鲁棒性,甚至更优。
- 在 Neal 和 Friedman 数据集上的实证结果表明,在各种误差分布下,GP-Huber 相较于某些竞品鲁棒 GP 方法具有更好的表现。
- 实际应用包括行星外观光谱学与波士顿房价数据,展示了 GP-Huber 方法的实际用途性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。