[论文解读] Generalized Product of Experts for Automatic and Principled Fusion of Gaussian Process Predictions
本文提出了一种广义专家乘积(gPoE)框架,用于融合高斯过程(GP)预测,实现了可扩展性、表达能力、鲁棒性以及无需联合训练的合理概率融合。通过使用基于预测微分熵的输入相关可靠性权重,gPoE 支持独立 GP 专家的并行训练,并生成有效且闭式解的高斯后验分布,从而降低不可靠预测的影响。
In this work, we propose a generalized product of experts (gPoE) framework for combining the predictions of multiple probabilistic models. We identify four desirable properties that are important for scalability, expressiveness and robustness, when learning and inferring with a combination of multiple models. Through analysis and experiments, we show that gPoE of Gaussian processes (GP) have these qualities, while no other existing combination schemes satisfy all of them at the same time. The resulting GP-gPoE is highly scalable as individual GP experts can be independently learned in parallel; very expressive as the way experts are combined depends on the input rather than fixed; the combined prediction is still a valid probabilistic model with natural interpretation; and finally robust to unreliable predictions from individual experts.
研究动机与目标
- 解决缺乏一种能同时满足可扩展性、输入相关加权、有效概率输出以及对劣质专家鲁棒性的融合框架的问题。
- 克服现有方法(如 MoE、PoE、bagging 和 stacking)的局限性,这些方法无法同时满足全部四项理想特性。
- 开发一种原则性、可扩展的 GP 融合机制,保留不确定性信息,并支持独立专家的并行训练。
- 证明 gPoE 仅使用每个专家 256 个训练点,即可优于或匹配最先进的稀疏 GP 近似方法。
提出的方法
- 提出广义专家乘积(gPoE)模型,其中每个专家的贡献由一个学习得到的、与输入相关的可靠性得分 αᵢ(x) 加权,该得分基于预测微分熵推导。
- 将联合后验形式化为 P(y|x) ∝ ∏ᵢ pᵢ(y|x)^αᵢ(x),确保结果仍为有效高斯分布,且具有闭式解的均值与协方差。
- 使用先验与后验之间微分熵的变化作为专家可靠性的代理指标,从而自然地降低过度自信或模型误设专家的影响。
- 推导出融合后均值与协方差的解析表达式:m(x) = (∑ᵢ mᵢ(x)Tᵢ(x)) (∑ᵢ Tᵢ(x))⁻¹ 和 Σ(x) = (∑ᵢ Tᵢ(x))⁻¹,其中 Tᵢ(x) 为第 i 个 GP 专家的精度。
- 实现独立 GP 专家的完全并行训练,因为融合步骤为事后处理,无需联合优化。
- 引入一种树状结构变体(tree-gPoE),在保持性能的同时提升推理效率。
实验结果
研究问题
- RQ1能否设计一种融合框架,使 GP 专家能够独立训练,同时仍实现输入自适应、鲁棒且有效的概率预测?
- RQ2与仅依赖预测方差相比,使用预测微分熵的变化作为可靠性度量是否能提升对模型误设的鲁棒性?
- RQ3gPoE 是否能仅使用每个专家少量训练点,就实现与先进稀疏 GP 近似方法(如 SVI-GP 或 FITC)相当的性能?
- RQ4在模型误设条件下,gPoE 相较于标准 PoE、MoE、bagging 和 stacking,在鲁棒性和表达能力方面有多大的性能提升?
主要发现
- gPoE 实现了全部四项理想特性:可扩展的并行训练、输入相关融合、有效概率输出以及对不可靠专家的鲁棒性。
- 在 UK-APT 数据集上,gPoE 每个专家使用 256 个训练点,RMSE 达到 0.556,优于 SVI-GP(0.426),并匹配或超过更复杂的稀疏 GP 近似方法的性能。
- tree-gPoE 变体降低了推理时间成本,同时保持了优异性能,在 UK-APT 上实现 RMSE 0.456。
- 在 SARCOS 和 KIN40K 数据集上,gPoE 显著优于 PoE 和 MoE,SMSE 从 PoE 的 0.438 降低至 gPoE 的 0.0603,SNLP 表现也更优。
- 尽管每个专家仅使用 256 个点,gPoE 的性能仍与复杂的稀疏 GP 方法相当,展现出高度的表达能力和泛化能力。
- 实证结果表明,即使预测方差不准确,微分熵的变化仍是专家可靠性的可靠指标,表明对模型误设具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。