[论文解读] Heterogeneous Multi-output Gaussian Process Prediction
本文提出了一种异质多输出高斯过程模型,通过使用具有协同区域化线性模型(LMC)协方差结构的向量值GP共享潜在函数,联合预测混合类型输出——连续型、二值型、类别型和离散型。利用带诱导变量的随机变分推断方法,该方法实现了可扩展、可计算的推断,并在合成数据和真实世界数据集(包括人类行为数据和高维人口统计学数据)上表现出更优的预测性能。
We present a novel extension of multi-output Gaussian processes for handling heterogeneous outputs. We assume that each output has its own likelihood function and use a vector-valued Gaussian process prior to jointly model the parameters in all likelihoods as latent functions. Our multi-output Gaussian process uses a covariance function with a linear model of coregionalisation form. Assuming conditional independence across the underlying latent functions together with an inducing variable framework, we are able to obtain tractable variational bounds amenable to stochastic variational inference. We illustrate the performance of the model on synthetic data and two real datasets: a human behavioral study and a demographic high-dimensional dataset.
研究动机与目标
- 解决混合连续型、二值型、类别型和离散型变量的多输出回归问题,其中传统多输出GP模型假设为高斯似然。
- 通过开发一种可计算的变分推断框架,克服具有多个非高斯似然的模型中联合推断的不可计算性。
- 通过将诱导变量框架与随机变分推断相结合,实现大规模数据集上的可扩展学习。
- 证明通过共享潜在函数联合建模异质输出,相比独立建模,能提升预测性能。
- 提供一种灵活且可扩展的实现方式,用户仅需指定似然函数列表(如伯努利、泊松、异方差高斯),系统将自动为每个似然分配相应的潜在函数。
提出的方法
- 将每个输出的似然参数(如均值、精度)建模为来自具有协同区域化线性模型(LMC)协方差结构的向量值GP的共享潜在函数的函数。
- 在所有输出的潜在函数上建立联合先验,其中每个输出的似然在给定其对应潜在函数的条件下条件独立。
- 应用带诱导变量的变分推断框架,以近似潜在函数的不可计算后验,从而实现可扩展计算。
- 基于边际似然的下界,推导出适用于小批量随机梯度下降优化的随机变分推断目标。
- 利用Alvarez和Lawrence(2009)提出的稀疏GP近似,将计算复杂度从O(N³)降低至O(NM²),其中M为诱导点数量。
- 使用Python实现该模型,提供用户友好的接口,用户通过列表形式指定似然函数(如[Bernoulli(), Poisson(), HetGaussian()]),系统将自动确定每个似然对应的潜在函数数量。
实验结果
研究问题
- RQ1多输出GP模型能否在保持计算可处理性的前提下,有效处理具有不同似然函数(如高斯、伯努利、泊松)的异质输出?
- RQ2通过共享潜在函数联合建模异质输出,是否能相比独立建模提升预测性能?
- RQ3该模型在存在缺失或噪声数据的情况下,能在多大程度上利用输出间的相关性来提升预测性能?
- RQ4该模型在具有混合输出类型的大型真实世界数据集上的可扩展性如何?
- RQ5该模型能否捕捉到独立建模时被忽略的复杂非高斯依赖关系(如行为数据中的昼夜节律)?
主要发现
- 在人类行为数据集中,该模型成功捕捉到第一个输出(睡眠时长)的昼夜节律模式,并通过共享潜在函数将其传递至其他输出(活动水平、社交互动),从而提升了整体预测性能。
- 在伦敦房价数据集(N=20,000)中,异质多输出GP模型实现了16.44±0.01的全局NLPD,优于独立建模的ChainedGP模型(17.31±1.06),表明在联合建模二值型(房屋类型)和连续型(价格)输出方面具有显著优势。
- 在高维心律失常数据集(p=255,N=452)中,该模型在二值型(性别)和连续型(对数年龄)输出上均实现了平均NLPD为0.0191,与独立ChainedGP模型无显著差异,表明在高维设置下具有鲁棒性。
- 当存在缺失数据或复杂依赖关系(如行为数据中的昼夜节律)时,该模型的性能增益最为显著,而独立建模则无法捕捉周期性特征。
- 随机变分推断的使用使得该模型能够在大规模数据集上实现高效训练,使用小批量数据和M=100个诱导点时即观察到收敛。
- 消融研究证实,预测性能的提升源于对输出间相关性的建模,即使在输出相关性不高的情况下,该模型仍优于独立学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。