Skip to main content
QUICK REVIEW

[论文解读] Doubly Robust Bayesian Inference for Non-Stationary Streaming Data with $\beta$-Divergences

Jeremias Knoblauch, Jack Jewson|arXiv (Cornell University)|Jun 6, 2018
Statistical Methods and Inference被引用 7
一句话总结

本文提出了首个基于β散度的鲁棒贝叶斯在线变点检测(BOCPD)算法,适用于非平稳流数据,实现线性时间与常数空间复杂度。通过利用β散度的广义贝叶斯推断,实现了对参数与变点的双重鲁棒推断,在真实世界数据上将误报率从90%以上降低至0%,同时通过结构化变分推断与在线β参数优化实现可扩展性,实现自适应鲁棒性。

ABSTRACT

We present the very first robust Bayesian Online Changepoint Detection algorithm through General Bayesian Inference (GBI) with $\beta$-divergences. The resulting inference procedure is doubly robust for both the parameter and the changepoint (CP) posterior, with linear time and constant space complexity. We provide a construction for exponential models and demonstrate it on the Bayesian Linear Regression model. In so doing, we make two additional contributions: Firstly, we make GBI scalable using Structural Variational approximations that are exact as $\beta o 0$. Secondly, we give a principled way of choosing the divergence parameter $\beta$ by minimizing expected predictive loss on-line. Reducing False Discovery Rates of CPs from more than 90% to 0% on real world data, this offers the state of the art.

研究动机与目标

  • 解决标准贝叶斯在线变点检测(BOCPD)在流数据中受异常值与模型误设影响时出现的高误报率问题。
  • 开发一种鲁棒的推断框架,在保持概率不确定性量化的同时,对数据污染具有鲁棒性。
  • 通过结构化变分推断实现基于β散度的广义贝叶斯推断(GBI)的可扩展性,且在β → 0时保持精确性。
  • 提供一种原则性的在线方法,用于β参数的初始化与优化,以平衡鲁棒性与效率。

提出的方法

  • 提出一种基于广义贝叶斯推断(GBI)的新型BOCPD框架,使用β散度替代Kullback-Leibler散度,以实现对异常值与模型误设的鲁棒性。
  • 引入结构化变分推断(SVI)近似GBI,保留参数依赖关系,并在β → 0时达到精确性,从而实现可扩展推断。
  • 使用方差缩减的随机梯度下降(SGD)将SVI扩展至流数据的在线处理,实现线性时间与常数空间复杂度。
  • 通过最小化期望预测损失实现β参数的在线优化,采用自适应步长与梯度平均以稳定更新。
  • 将该方法应用于贝叶斯线性回归与多变量向量自回归模型,在真实世界测井数据与空气污染数据上验证了其鲁棒性。
  • 基于最小化期望预测损失的原则化β初始化方法,测井数据中βp初始化为0.05,βrld初始化为0.0001。

实验结果

研究问题

  • RQ1基于β散度的广义贝叶斯推断能否实现在非平稳流数据中鲁棒、可扩展且双重鲁棒的贝叶斯变点检测?
  • RQ2如何设计结构化变分推断,使其在在线设置中保留参数依赖关系,并高效结合β散度?
  • RQ3是否存在一种原则性的在线方法,用于β参数的初始化与优化,以平衡鲁棒性与预测准确性?
  • RQ4与标准BOCPD相比,所提方法在含异常值的真实世界数据中,能在多大程度上减少误报的变点检测?
  • RQ5自适应β优化策略与固定β设置相比,在预测性能与鲁棒性方面表现如何?

主要发现

  • 所提出的鲁棒BOCPD在真实世界测井数据上将变点的误报率从90%以上降低至0%,显著优于标准BOCPD。
  • 该方法实现了线性时间与常数空间复杂度,支持流数据的高效在线处理。
  • 结合β散度的结构化变分推断能对真实后验分布实现近乎完美的拟合,尤其在β → 0时表现优异,且保持可扩展性。
  • 通过最小化预测损失实现的在线β优化,带来稳定且自适应的鲁棒性,βp基本保持恒定,βrld虽受噪声梯度影响仅出现轻微漂移。
  • βp的初始化方法从一开始就实现了优异的预测性能,由于高度稳定,在线优化极少采取更新步骤。
  • 在空气污染数据上,鲁棒模型优于表达能力更强但非鲁棒的模型(具有更长滞后长度),表明实践中鲁棒性优于模型表达能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。