Skip to main content
QUICK REVIEW

[论文解读] Approximating Likelihood Ratios with Calibrated Discriminative Classifiers

K. Cranmer, Juan Pavez|arXiv (Cornell University)|Jun 6, 2015
Gaussian Processes and Bayesian Inference参考文献 25被引用 131
一句话总结

本文提出一种方法,在似然函数不可用的似然自由推断设置中,通过训练校准的判别分类器,直接从模拟数据估计似然比。关键贡献在于,似然比在单调降维下保持不变,使得可通过一维分类器得分实现高效近似,而无需显式计算似然函数或先验分布。

ABSTRACT

In many fields of science, generalized likelihood ratio tests are established tools for statistical inference. At the same time, it has become increasingly common that a simulator (or generative model) is used to describe complex processes that tie parameters $θ$ of an underlying theory and measurement apparatus to high-dimensional observations $\mathbf{x}\in \mathbb{R}^p$. However, simulator often do not provide a way to evaluate the likelihood function for a given observation $\mathbf{x}$, which motivates a new class of likelihood-free inference algorithms. In this paper, we show that likelihood ratios are invariant under a specific class of dimensionality reduction maps $\mathbb{R}^p \mapsto \mathbb{R}$. As a direct consequence, we show that discriminative classifiers can be used to approximate the generalized likelihood ratio statistic when only a generative model for the data is available. This leads to a new machine learning-based approach to likelihood-free inference that is complementary to Approximate Bayesian Computation, and which does not require a prior on the model parameters. Experimental results on artificial problems with known exact likelihoods illustrate the potential of the proposed method.

研究动机与目标

  • 为解决在似然函数难以计算或不可用的情况下执行广义似然比检验的挑战,特别是在高能物理中常见的复杂模拟器中。
  • 开发一种基于机器学习的近似贝叶斯计算(ABC)替代方法,适用于频率学框架,且无需对模型参数设定先验分布。
  • 建立理论基础,证明似然比在向标量得分的单调降维下保持不变,从而支持通过分类实现高效近似。
  • 证明在高维数据设置中,校准的判别分类器可作为广义似然比检验统计量的有效替代品。

提出的方法

  • 该方法利用从高维数据空间 ℝᵖ 到一维得分空间 ℝ 的单调变换下似然比的不变性,将复杂的似然比估计问题简化为单变量密度估计。
  • 在来自两个参数配置(θ₀ 和 θ₁)的模拟数据上训练判别分类器,生成保留似然比信息的标量得分 s(𝐱)。
  • 似然比通过分类器得分的单变量密度比近似:λ′(𝒟;θ₀,θ₁) = ∏ₓ∈𝒟 pᵤ(u=s(𝐱)|θ₀) / pᵤ(u=s(𝐱)|θ₁),其中 u 为分类器输出。
  • 通过在特定 θ 值下从模拟器生成数据,并使用核密度估计等方法估计单变量密度 pᵤ(u|θ),实现校准。
  • 该方法将分类器训练(以提升判别能力)与校准(以保证统计精度)解耦,允许对每个组件独立优化。
  • 通过将检验统计量视为分类器得分的函数,将方法扩展至复合假设,实现在无需先验分布下的频率学推断。

实验结果

研究问题

  • RQ1当似然函数难以计算时,判别分类器能否用于近似广义似然比统计量?
  • RQ2似然比是否在向一维得分的单调降维下保持不变,从而实现高效近似?
  • RQ3校准后的分类器能否在无需对模型参数设定先验分布的情况下,作为近似贝叶斯计算在似然自由推断中的有效替代?
  • RQ4在已知似然的合成设置中,基于分类器的似然比近似性能与精确似然比检验相比如何?

主要发现

  • 似然比在从 ℝᵖ 到 ℝ 的单调变换下保持不变,这为将高维数据降维为标量分类器得分而不损失统计效能提供了理论依据。
  • 所提出的方法通过使用校准分类器得分近似似然比,实现了在似然自由设置下的广义似然比检验,避免了直接计算似然函数。
  • 在具有已知精确似然的合成问题上的实验结果表明,基于分类器的近似与真实似然比高度吻合,展现出高精度与可靠性。
  • 该方法兼容频率学推断,且无需为模型参数指定先验分布,适用于复杂模拟器中的经典统计检验。
  • 该方法将判别特征的学习与校准分离,允许使用最先进的分类模型,同时通过得分密度的准确估计确保统计有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。