Skip to main content
QUICK REVIEW

[论文解读] A Widely Applicable Bayesian Information Criterion

Sumio Watanabe|arXiv (Cornell University)|Aug 31, 2012
Markov Chains and Monte Carlo Methods参考文献 27被引用 783
一句话总结

本文提出了广义贝叶斯信息准则(WBIC),一种用于估计奇异统计模型中贝叶斯自由能的方法——在传统BIC失效的场景下,通过在逆温度 $1/\log n$ 下对后验分布的对数似然进行平均。WBIC在无需已知真实分布或理论计算真实对数奇异指数(RLCT)的情况下,渐近匹配贝叶斯自由能,使其在常规与奇异模型中均具有普适适用性。

ABSTRACT

A statistical model or a learning machine is called regular if the map taking a parameter to a probability distribution is one-to-one and if its Fisher information matrix is always positive definite. If otherwise, it is called singular. In regular statistical models, the Bayes free energy, which is defined by the minus logarithm of Bayes marginal likelihood, can be asymptotically approximated by the Schwarz Bayes information criterion (BIC), whereas in singular models such approximation does not hold. Recently, it was proved that the Bayes free energy of a singular model is asymptotically given by a generalized formula using a birational invariant, the real log canonical threshold (RLCT), instead of half the number of parameters in BIC. Theoretical values of RLCTs in several statistical models are now being discovered based on algebraic geometrical methodology. However, it has been difficult to estimate the Bayes free energy using only training samples, because an RLCT depends on an unknown true distribution. In the present paper, we define a widely applicable Bayesian information criterion (WBIC) by the average log likelihood function over the posterior distribution with the inverse temperature $1/\log n$, where $n$ is the number of training samples. We mathematically prove that WBIC has the same asymptotic expansion as the Bayes free energy, even if a statistical model is singular for and unrealizable by a statistical model. Since WBIC can be numerically calculated without any information about a true distribution, it is a generalized version of BIC onto singular statistical models.

研究动机与目标

  • 解决BIC在奇异统计模型中失效的问题,即费雪信息矩阵非正定的情况。
  • 为奇异与不可实现模型开发一种可数值计算的模型选择准则。
  • 在无需事先知道真实分布或理论计算RLCT值的情况下,实现贝叶斯自由能的估计。
  • 通过基于逆温度 $1/\log n$ 的渐近近似,将BIC推广至奇异模型。
  • 提供一种实用且计算可行的替代方法,避免依赖理论RLCT或复杂抽样技术。

提出的方法

  • 将WBIC定义为在逆温度 $\beta = 1/\log n$ 下,基于后验分布的期望对数似然。
  • 使用在 $\beta = 1/\log n$ 时的平均对数似然 $\mathbb{E}_w^{\beta}[L_n(w)]$ 作为准则。
  • 证明WBIC在常规与奇异模型中均渐近匹配贝叶斯自由能 $\mathcal{F}$。
  • 建立WBIC的渐近展开与贝叶斯自由能一致,即使真实分布不可实现亦成立。
  • 利用代数几何中的结果,特别是真实对数奇异指数(RLCT),以证明渐近等价性。
  • 证明WBIC避免了对真实分布的先验知识或对RLCT的理论计算,从而支持实际实现。

实验结果

研究问题

  • RQ1能否开发一种适用于BIC失效的奇异统计模型的模型选择准则?
  • RQ2是否可能在不知晓真实分布或无需理论计算RLCT的情况下估计贝叶斯自由能?
  • RQ3在 $\beta = 1/\log n$ 时,对数似然的平均值是否能提供与奇异模型中贝叶斯自由能渐近等价的近似?
  • RQ4统计模型的奇偶性如何影响WBIC的渐近行为?
  • RQ5WBIC是否可在真实分布位于模型类之外的不可实现模型中有效使用?

主要发现

  • WBIC在常规与奇异模型中均渐近匹配贝叶斯自由能 $\mathcal{F}$,即使真实分布不可实现亦成立。
  • WBIC的渐近展开与贝叶斯自由能完全一致,其主项为 $nL_n(w_0) + \lambda \log n$,其中 $\lambda$ 为RLCT。
  • WBIC无需真实分布知识或对RLCT的理论计算,支持实际的数值估计。
  • 该方法在不同统计条件下均表现稳健,且在计算成本与适用性方面优于现有方法。
  • 统计模型的奇偶性影响渐近展开中的波动项,奇数奇偶性在 $\beta = 1/\log n$ 情况下导致波动项为零。
  • WBIC为重要性采样与两步法提供了可行的替代方案,计算成本低,且无需理论RLCT值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。