QUICK REVIEW

[论文解读] Variable selection for Gaussian processes via sensitivity analysis of the posterior predictive distribution

Topi Paananen, Juho Piironen|Aaltodoc (Aalto University)|Dec 21, 2017

Gaussian Processes and Bayesian Inference被引用 32

一句话总结

本文提出了两种用于高斯过程模型的新颖变量选择方法，通过后验预测分布的敏感性分析，按预测相关性对输入变量进行排序。与依赖逆长度尺度且存在高变异性与预测对齐性差问题的自动相关性确定（ARD）不同，所提出的KL与VAR方法通过Kullback-Leibler散度和基于方差的敏感性计算逐点相关性估计，实现更一致且具预测能力的变量排序，且计算开销极低。

ABSTRACT

Variable selection for Gaussian process models is often done using automatic relevance determination, which uses the inverse length-scale parameter of each input variable as a proxy for variable relevance. This implicitly determined relevance has several drawbacks that prevent the selection of optimal input variables in terms of predictive performance. To improve on this, we propose two novel variable selection methods for Gaussian process models that utilize the predictions of a full model in the vicinity of the training points and thereby rank the variables based on their predictive relevance. Our empirical results on synthetic and real world data sets demonstrate improved variable selection compared to automatic relevance determination in terms of variability and predictive performance.

研究动机与目标

为解决高斯过程模型中自动相关性确定（ARD）的局限性，其使用逆长度尺度作为变量相关性的代理指标，但往往与实际预测性能不一致。
开发实用且计算高效的ARD替代方法，通过训练点附近的预测敏感性直接评估变量相关性。
提高不同训练数据集上变量相关性排序的一致性与可靠性，增强模型可解释性。
通过计算逐点预测相关性，实现局部相关性评估，从而识别在输入空间特定区域中具有相关性的变量。
提供计算轻量化的替代方案，替代如预测投影或spike-and-slab先验等昂贵方法，同时保持强预测性能。

提出的方法

KL方法通过计算后验预测分布与一个将某变量设为零的扰动版本之间的Kullback-Leibler散度，衡量因该变量被排除而导致的信息损失，从而评估预测相关性。
VAR方法通过计算移除某一变量后后验预测分布的方差来估计相关性，捕捉其缺失所引入的预测不确定性。
两种方法均在每个训练点上计算相关性得分，实现对变量重要性的逐点评估，超越全局平均值。
方法利用模型在训练点附近的完整后验分布，估计每个变量对预测准确性的贡献。
通过在训练数据上对逐点相关性得分取平均，获得全局相关性排序，确保一致性和可解释性。
与基于MCMC的替代方法相比，该方法计算效率高，仅需标准GP推理，适用于实际应用。

实验结果

研究问题

RQ1是否可以通过直接测量变量移除对后验预测分布的影响，在高斯过程模型中更准确地评估预测相关性？
RQ2在不同数据集上，ARD与所提出的基于敏感性的方法在变量相关性排序的变异性方面有何比较？
RQ3逐点相关性估计是否能揭示被全局平均值掩盖的局部预测重要性？
RQ4与ARD相比，所提出的方法在仅含一至三个变量的子模型中是否表现出更好的预测性能？
RQ5KL与VAR方法在计算成本和变量排序一致性方面有何比较？

主要发现

所提出的KL与VAR方法在不同训练数据集上产生的变量相关性排序比ARD更一致，ARD在Housing、Automobile和Crime数据集中表现出高变异性。
在预测性能方面，所提出方法在含一至三个变量的子模型中优于ARD，尤其在Housing和Automobile数据集中，ARD的变量选择不稳定。
在Concrete数据集中，ARD在后期变量选择中表现出更高变异性，而所提出方法保持一致的排序，通过更优的变量相关性排序提升了子模型性能。
KL与VAR方法的逐点相关性估计成功识别了局部预测重要性，例如在输入空间特定区域中突出显示变量8具有高度相关性，与真实潜在函数的比较结果证实了这一点。
KL方法与后验均值相对于标准差的导数存在解析关联，为敏感性与预测影响之间提供了合理的理论联系。
尽管计算成本略高于ARD，但该方法仍具计算可行性，且远低于预测投影或基于MCMC的spike-and-slab先验等替代方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。