[论文解读] A Geometric Formulation of Occam's Razor for Inference of Parametric Distributions
本文通过将模型族视为概率分布空间中的流形,提出了参数模型选择中奥卡姆剃刀的几何形式。利用费雪信息作为自然度量,并从分布空间中的均匀性推导出杰弗里斯先验,定义了一个‘剃刀’——相对于真实分布的模型复杂度度量。结果表明,贝叶斯后验与MDL近似在渐近意义上收敛于该剃刀,且有限样本的校正项反映了模型的鲁棒性。
I define a natural measure of the complexity of a parametric distribution relative to a given true distribution called the {\it razor} of a model family. The Minimum Description Length principle (MDL) and Bayesian inference are shown to give empirical approximations of the razor via an analysis that significantly extends existing results on the asymptotics of Bayesian model selection. I treat parametric families as manifolds embedded in the space of distributions and derive a canonical metric and a measure on the parameter manifold by appealing to the classical theory of hypothesis testing. I find that the Fisher information is the natural measure of distance, and give a novel justification for a choice of Jeffreys prior for Bayesian inference. The results of this paper suggest corrections to MDL that can be important for model selection with a small amount of data. These corrections are interpreted as natural measures of the simplicity of a model family. I show that in a certain sense the logarithm of the Bayesian posterior converges to the logarithm of the {\it razor} of a model family as defined here. Close connections with known results on density estimation and ``information geometry'' are discussed as they arise.
研究动机与目标
- 开发一种模型复杂度的几何度量,以在参数推断中形式化奥卡姆剃刀。
- 通过几何与统计不变性原理,独立于编码理论,证明杰弗里斯先验的合理性。
- 定义一个‘剃刀’——相对于真实分布的模型简洁性与准确性之规范度量。
- 表明贝叶斯后验与MDL可作为该剃刀的实证近似,且包含有限样本校正。
- 将贝叶斯推断的渐近行为与信息几何及可分辨性指数相联系。
提出的方法
- 将参数模型族视为嵌入在概率分布空间中的黎曼流形。
- 通过假设检验与局部可区分性,利用费雪信息矩阵在参数流形上定义自然度量。
- 通过要求平移不变性及相近分布的不可区分性,在参数流形上构造自然测度,导出费雪信息行列式的平方根作为体积元。
- 运用统计物理技术(如Laplace方法)对剃刀及贝叶斯后验的对数进行渐近展开。
- 将剃刀表示为样本量倒数(1/N)的渐近展开,每一项均有几何解释。
- 证明贝叶斯后验的对数以概率收敛于剃刀的对数,且在1/N展开中逐项收敛。
实验结果
研究问题
- RQ1在参数模型选择的背景下,奥卡姆剃刀如何实现几何形式化?
- RQ2在参数流形上,反映统计可区分性与不变性的自然度量与测度是什么?
- RQ3贝叶斯后验与模型族的几何复杂度度量有何关系?
- RQ4有限样本渐近分析中,MDL的哪些校正项浮现?它们如何反映模型鲁棒性?
- RQ5所提出的剃刀与现有指标(如可分辨性指数与随机复杂度)有何关联?
主要发现
- 费雪信息矩阵在参数流形上提供了自然的黎曼度量,对应于分布之间的统计距离。
- 费雪信息行列式的平方根在参数流形上诱导出规范测度,等价于杰弗里斯先验,其推导基于分布空间中的均匀性。
- ‘剃刀’——一种几何复杂度度量——量化了相对于真实分布的模型准确度与简洁性之间的权衡。
- 贝叶斯后验的对数以概率收敛于剃刀的对数,且在1/N渐近展开中逐项收敛。
- MDL的有限样本校正项自然地从剃刀展开的高阶项中浮现,反映了模型鲁棒性。
- 剃刀提供了超越可分辨性指数的模型族更精细分类,次主导项可提供改进的渐近近似。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。