QUICK REVIEW

[论文解读] Summary Statistics in Approximate Bayesian Computation

Dennis Prangle|arXiv (Cornell University)|Dec 17, 2015

Markov Chains and Monte Carlo Methods参考文献 37被引用 24

一句话总结

本文综述了在近似贝叶斯计算（ABC）中选择低维、信息丰富的摘要统计量的方法，以缓解维度灾难问题，该问题会导致直接使用高维数据时后验近似质量下降。文章评估了子集选择、辅助似然方法和投影技术，结论是性能取决于具体问题，没有一种方法能普遍优于其他方法。

ABSTRACT

This document is due to appear as a chapter of the forthcoming Handbook of Approximate Bayesian Computation (ABC) edited by S. Sisson, Y. Fan, and M. Beaumont. Since the earliest work on ABC, it has been recognised that using summary statistics is essential to produce useful inference results. This is because ABC suffers from a curse of dimensionality effect, whereby using high dimensional inputs causes large approximation errors in the output. It is therefore crucial to find low dimensional summaries which are informative about the parameter inference or model choice task at hand. This chapter reviews the methods which have been proposed to select such summaries, extending the previous review paper of Blum et al. (2013) with recent developments. Related theoretical results on the ABC curse of dimensionality and sufficiency are also discussed.

研究动机与目标

为解决ABC中的维度灾难问题，该问题源于使用高维摘要统计量导致后验近似质量下降。
识别并评估选择低维、信息丰富摘要统计量的方法，以保留参数推断和模型选择的相关信息。
通过纳入辅助似然方法和ABC模型选择的最新进展，扩展以往的综述。
为摘要统计量的选择提供实用指导，承认最优方法取决于具体问题背景。

提出的方法

采用一种将高维数据缩减为低维摘要统计量的框架，使用三种主要策略：子集选择、基于辅助似然的方法和基于投影的方法。
使用ABC拒绝采样和重要性采样算法来评估不同摘要统计量选择技术的性能。
应用机器学习技术（如分类和回归）从训练数据中生成摘要统计量，利用预测准确性来指导充分性判断。
提出将深度神经网络和特征词典作为未来自动、数据驱动的摘要统计量选择的潜在工具。
考虑对摘要统计量进行保持维度的变换，以提升ABC性能，如在特定算法中所展示的那样。
提出重用大规模预模拟数据集，以在比较多种摘要统计量选择方法时降低计算成本。

实验结果

研究问题

RQ1摘要统计量的维度在多大程度上影响ABC后验近似的准确性和计算效率？
RQ2为何在ABC中需要低维、信息丰富的摘要统计量，其理论基础是什么，特别是关于充分性和维度灾难的解释？
RQ3在后验近似质量与计算成本方面，子集选择、辅助似然和投影等不同摘要统计量选择策略如何比较？
RQ4机器学习技术（如回归和分类）是否能有效用于生成ABC中的信息丰富摘要统计量，而无需主观的特征选择？
RQ5近期的基于距离的方法（绕过传统摘要统计量）在多大程度上缓解了ABC中的维度灾难问题？

主要发现

在ABC拒绝采样中，渐近误差率以 $ O_p(n^{-4/(q+4)}) $ 的速率衰减，其中 $ q $ 为摘要统计量的维度，表明高维摘要统计量导致收敛更慢、近似更差。
充分统计量是ABC的理想选择，但在实践中通常不可用，因此需依赖低维、信息丰富但不充分的摘要统计量。
实证比较显示，ABC-IP（带投影的重要性采样）和ABC-IL（带辅助似然的重要性采样）通常优于ABC-IS（带子集选择的重要性采样），但结果因问题而异。
没有一种方法能始终优于其他方法；ABC-IP和ABC-IL通常更高效且更准确，但最佳选择取决于具体模型和数据结构。
基于投影的方法具有高度灵活性，适用于广泛的问题，因此在其他方法不适用时，是强有力的默认选择。
未来改进可能来自基于深度学习的摘要统计量选择或领域特定的特征词典，尽管训练数据需求仍是主要挑战。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。