[论文解读] Sampling-Based Accuracy Testing of Posterior Estimators for General Inference
Introduces TARP: a sampling-based coverage test to assess the accuracy of posterior estimators from generative models, proving necessary and sufficient conditions for correctness without evaluating the posterior directly.
Parameter inference, i.e. inferring the posterior distribution of the parameters of a statistical model given some data, is a central problem to many scientific disciplines. Generative models can be used as an alternative to Markov Chain Monte Carlo methods for conducting posterior inference, both in likelihood-based and simulation-based problems. However, assessing the accuracy of posteriors encoded in generative models is not straightforward. In this paper, we introduce `Tests of Accuracy with Random Points' (TARP) coverage testing as a method to estimate coverage probabilities of generative posterior estimators. Our method differs from previously-existing coverage-based methods, which require posterior evaluations. We prove that our approach is necessary and sufficient to show that a posterior estimator is accurate. We demonstrate the method on a variety of synthetic examples, and show that TARP can be used to test the results of posterior inference analyses in high-dimensional spaces. We also show that our method can detect inaccurate inferences in cases where existing methods fail.
研究动机与目标
- 在无法获得显式后验评估时,促进对后验估计器的鲁棒评估。
- 开发一个理论基础扎实的覆盖测试框架,以证明后验的准确性。
- 提供实现后验正确性必要和充分条件的实用算法(TARP)
- 在合成和高维问题上演示该方法,包括引力透镜成像。
- 在测试中就参考点分布和距离度量的选择提供指引。
提出的方法
- 将后验估计器的准确性定义为在(x, θ)上等于真实后验。
- 引入可定位的可信区间生成器并计算预期覆盖概率(ECP)。
- 证明对所有定位的正确期望覆盖意味着精确的后验恢复(Theorem 3)。
- 开发 TARP(Test of Accuracy with Random Points)以在无需显式后验评估的情况下估计 ECP。
- 提出一个实用算法(Algorithm 2),它对后验抽样、选择随机参考点 θ_r,并使用距离度量来形成随机点区域。
- 证明对 θ_r 分布和距离度量的选择具有鲁棒性,并与基于 HPD 的覆盖进行比较。

实验结果
研究问题
- RQ1我们能否使用不需要评估后验密度的覆盖性检查来认证后验估计器的准确性?
- RQ2对所有可定位的可信区间而言,正确的期望覆盖是否是后验准确性的必要且充分条件(Theorem 3)?
主要发现
- TARP 提供了一个精确诊断:在随机点区域上正确的期望覆盖意味着后验估计器是准确的。
- 基于 HPD 的覆盖可能对某些偏差或非信息性后验视而不见,而 TARP 可以检测此类问题。
- 在高维情境下,TARP 对参考点分布和距离度量的选择具有鲁棒性。
- 该方法在合成高斯 toy 模型和高维引力透镜成像源重建任务中成功地检测到不准确之处。
- 实验表明 TARP 能识别过于自信和欠自信的后验,以及 HPD 覆盖遗漏的偏差。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。