[论文解读] Scalable Bayes via Barycenter in Wasserstein Space
本文提出了一种基于Wasserstein空间中质心的可扩展贝叶斯推断方法,用于合并来自分布式数据子集的后验样本。通过利用最优传输几何结构,该方法在理论保证下实现了对完整数据后验的精确近似,并在模拟和真实数据中表现出优于现有方法的性能。
Divide-and-conquer based methods for Bayesian inference provide a general approach for tractable posterior inference when the sample size is large. These methods divide the data into smaller subsets, sample from the posterior distribution of parameters in parallel on all the subsets, and combine posterior samples from all the subsets to approximate the full data posterior distribution. The smaller size of any subset compared to the full data implies that posterior sampling on any subset is computationally more efficient than sampling from the true posterior distribution. Since the combination step takes negligible time relative to sampling, posterior computations can be scaled to massive data by dividing the full data into a sufficiently large number of data subsets. One such approach relies on the geometry of posterior distributions estimated across different subsets and combines them through their barycenter in a Wasserstein space of probability measures. We provide theoretical guarantees on the accuracy of approximation that are valid in many applications. We show that the geometric method approximates the full data posterior distribution better than its competitors across diverse simulations and reproduces known results when applied to a movie ratings database.
研究动机与目标
- 解决由于高维似然函数和内存限制导致的在大规模数据集上进行完整贝叶斯推断的计算不可行性。
- 克服现有分而治之方法依赖参数假设或后验支撑集不匹配的局限性。
- 开发一种通用的非参数方法,用于合并子集后验样本,同时保持几何结构和不确定性。
- 在广泛条件下,为Wasserstein质心近似提供理论一致性保证。
- 通过分布式采样和几何组合,降低通信和计算成本,实现实际可扩展性。
提出的方法
- 将完整数据集划分为k个互不相交的子集,以实现在每个子集上并行后验采样。
- 通过将先验提升到1/k次幂的修改版本,在每个子集上采样后验分布,以确保一致性。
- 将每个子集后验表示为概率分布Wasserstein空间中的经验概率测度。
- 使用线性规划计算这些经验测度的Wasserstein质心,作为全局后验近似。
- 使用数据扩展技术,当先验被提升到分数次幂时,实现从修改后的子集后验中进行MCMC采样。
- 通过最小化测度间总运输成本的线性规划求解质心问题,约束条件确保质量守恒和适当加权。
实验结果
研究问题
- RQ1Wasserstein子集后验质心是否能比现有方法更准确地近似完整数据后验?
- RQ2通过质心实现的几何组合在理论一致性与有限样本准确性方面表现如何?
- RQ3当子集后验具有不同支撑集或非高斯分布时,该方法是否仍保持良好性能?
- RQ4与标准MCMC和变分推断相比,该方法在大规模数据集上的计算效率如何?
- RQ5该方法是否可应用于具有潜变量和非共轭先验的复杂层次模型?
主要发现
- 在温和正则性条件下,Wasserstein质心方法能一致地近似完整数据后验,其理论误差界随子集数量增长而可控。
- 在多种模拟研究中,该方法在后验准确性和覆盖度方面优于核密度组合和共识MCMC等竞争方法。
- 该方法在真实电影评分数据集上成功复现了已知结果,证明了其经验有效性与鲁棒性。
- 数据扩展的使用使得即使在先验被提升到非整数次幂时,也能从修改后的子集后验中实现MCMC采样。
- 计算质心的线性规划公式在计算上是可行的,可使用标准求解器高效求解。
- 通过在子集间分布采样,该方法在保持高后验保真度的同时实现了显著的计算加速。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。