Skip to main content
QUICK REVIEW

[论文解读] Coresets for Scalable Bayesian Logistic Regression

Jonathan H. Huggins, Trevor Campbell|arXiv (Cornell University)|May 20, 2016
Gaussian Processes and Bayesian Inference参考文献 25被引用 78
一句话总结

本文提出了一种基于核心集(coreset)的方法,用于可扩展的贝叶斯逻辑回归,通过构建一个小型加权数据子集来近似完整数据集的似然函数。通过利用数据冗余性,并对核心集大小和近似质量提供理论保证,该方法实现了计算开销极小的高效马尔可夫链蒙特卡洛(MCMC)推理,实际中核心集大小与数据集规模无关。

ABSTRACT

The use of Bayesian methods in large-scale data settings is attractive because of the rich hierarchical models, uncertainty quantification, and prior specification they provide. Standard Bayesian inference algorithms are computationally expensive, however, making their direct application to large datasets difficult or infeasible. Recent work on scaling Bayesian inference has focused on modifying the underlying algorithms to, for example, use only a random data subsample at each iteration. We leverage the insight that data is often redundant to instead obtain a weighted subset of the data (called a coreset) that is much smaller than the original dataset. We can then use this small coreset in any number of existing posterior inference algorithms without modification. In this paper, we develop an efficient coreset construction algorithm for Bayesian logistic regression models. We provide theoretical guarantees on the size and approximation quality of the coreset -- both for fixed, known datasets, and in expectation for a wide class of data generative models. Crucially, the proposed approach also permits efficient construction of the coreset in both streaming and parallel settings, with minimal additional effort. We demonstrate the efficacy of our approach on a number of synthetic and real-world datasets, and find that, in practice, the size of the coreset is independent of the original dataset size. Furthermore, constructing the coreset takes a negligible amount of time compared to that required to run MCMC on it.

研究动机与目标

  • 通过在推理前减小数据规模,解决标准贝叶斯推理在大规模数据集上的计算不可行性。
  • 开发一种核心集构建方法,以在贝叶斯逻辑回归中保持后验近似质量。
  • 为固定数据集和在数据生成模型下的期望情况,提供关于核心集大小和近似误差的理论保证。
  • 在流式处理和并行计算环境中实现高效的核心集构建,且无需修改现有推理算法。

提出的方法

  • 该方法通过在子采样数据集上进行k均值聚类,识别具有代表性的数据点,以加速聚类中心的计算。
  • 为每个数据点计算敏感度得分,以优先选择具有影响力的点,使用调整后的聚类中心以提高准确性。
  • 通过按敏感度得分成比例的概率重新采样数据点,形成核心集,确保对完整数据对数似然函数的统一近似。
  • 理论分析利用集中不等式和一般数据模型下的渐近分析,对核心集大小和近似误差进行界约束。
  • 该方法支持流式和并行的核心集构建,计算开销极小,可实现可扩展的预处理。
  • 最终的核心集可作为任何标准后验推理算法(如MCMC)的输入,无需修改算法本身。

实验结果

研究问题

  • RQ1能否构建一个小型加权数据子集(即核心集),以统一近似贝叶斯逻辑回归中完整数据的对数似然函数?
  • RQ2对于固定数据集和在数据生成模型下的期望情况,能否为该核心集的大小和近似质量提供理论保证?
  • RQ3核心集构建能否高效扩展至流式和分布式数据环境?
  • RQ4在实际中,核心集大小是否与原始数据集规模无关?
  • RQ5使用核心集进行后验推理在准确性和计算成本方面,与完整数据推理相比如何?

主要发现

  • 核心集大小在经验上与原始数据集规模无关,在包含多达100万条记录的数据集中仍保持较小。
  • 核心集构建时间与在核心集上进行MCMC推理所需时间相比可忽略不计,从而实现显著的计算节省。
  • 理论分析表明,核心集以高概率统一近似完整数据的对数似然函数,从而确保后验近似质量。
  • 该方法在核心集上使用标准MCMC可实现准确的后验推理,结果与完整数据推理相当。
  • 该方法支持高效的流式和并行核心集构建,适用于大规模和分布式数据工作负载。
  • 基于敏感度的采样方法能够捕捉稀有但具有影响力的样本点,从而对异常值和少数类具有鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。