Skip to main content
QUICK REVIEW

[论文解读] A simple example of Dirichlet process mixture inconsistency for the number of components

Jeffrey W. Miller, Matthew Tom Harrison|arXiv (Cornell University)|Jan 12, 2013
Bayesian Methods and Mixture Models参考文献 17被引用 86
一句话总结

本文证明了狄利克雷过程混合模型(DPMs)在估计有限混合模型中真实分量数量时存在不一致,即使在最简单的情形下也是如此:当使用单位方差正态分量的DPM对来自单一标准正态分量的数据进行建模时,后验概率中数据仅包含一个聚类的概率随着样本量增加而收敛于零,揭示了在分量数量推断方面存在严重不一致。

ABSTRACT

For data assumed to come from a finite mixture with an unknown number of components, it has become common to use Dirichlet process mixtures (DPMs) not only for density estimation, but also for inferences about the number of components. The typical approach is to use the posterior distribution on the number of components occurring so far --- that is, the posterior on the number of clusters in the observed data. However, it turns out that this posterior is not consistent --- it does not converge to the true number of components. In this note, we give an elementary demonstration of this inconsistency in what is perhaps the simplest possible setting: a DPM with normal components of unit variance, applied to data from a "mixture" with one standard normal component. Further, we find that this example exhibits severe inconsistency: instead of going to 1, the posterior probability that there is one cluster goes to 0.

研究动机与目标

  • 证明狄利克雷过程混合模型(DPMs)在估计有限混合模型中分量数量时存在不一致。
  • 表明这种不一致甚至出现在最简单的情形下:将单位方差正态分量的DPM应用于来自单一标准正态分量的数据。
  • 证明尽管真实分量数量为1,后验概率中单个聚类的概率随着样本量增加而收敛于零。
  • 强调在有限混合模型中依赖DPM后验分布进行分量数量推断存在严重风险。

提出的方法

  • 采用浓度参数 α=1 的标准正态DPM,对分量均值使用正态基测度,固定单位方差。
  • 利用中国餐馆过程(CRP)计算划分概率,定义恰好有 t 个聚类的后验概率 p(Tₙ = t | X₁:n)。
  • 引入归一化的边际似然比 R₁ 和 R₂,用于比较单聚类与双聚类模型的边际似然。
  • 应用霍夫丁的U统计量大数定律,证明 R₂(X₁:n) 依概率趋于无穷,而 R₁(X₁:n) 保持随机有界。
  • 建立不等式 p(Tₙ = 1 | X₁:n) ≤ R₁ / R₂ → 0(依概率),从而证明不一致。
  • 利用 E[h(Xₛ)] = 1 及调和均值的渐近行为,控制 R₂ 的增长并约束 R₁。

实验结果

研究问题

  • RQ1当数据由有限混合模型生成时,狄利克雷过程混合模型中聚类数量的后验分布是否会收敛到真实分量数量?
  • RQ2在最简单的情形下——即对来自单一标准正态分量的数据使用单位方差正态分量的DPM——单个聚类的后验概率是否会收敛于1?
  • RQ3当数据实际上来自一个分量时,标准正态DPM下单个聚类的后验概率的渐近行为如何?
  • RQ4分量数量估计的不一致性是否可量化,且程度是否严重?
  • RQ5在有限混合模型中使用DPM后验分布进行分量数量推断是否存在根本性缺陷?

主要发现

  • 尽管数据来自单一正态分量,后验概率 p(Tₙ = 1 | X₁:n) 随 n → ∞ 依概率收敛于零。
  • 比值 R₂(X₁:n) = n³/² × p(X₁:n, Tₙ=2) / p₀(X₁:n) 几乎必然发散至无穷,表明对两个聚类有强烈支持。
  • 比值 R₁(X₁:n) = n³/² × p(X₁:n, Tₙ=1) / p₀(X₁:n) 是随机有界(Oₚ(1)),即不随 n 增大而增长。
  • 比值 R₁ / R₂ → 0(依概率),意味着单个聚类的后验优势在渐近下完全消失。
  • 该不一致现象极为严重:后验概率并未收敛于1,反而使正确分量数量(1)的后验概率收敛于0。
  • 该结论对任意 α > 0 成立,而不仅限于 α = 1,表明DPM在分量数量推断方面普遍存在不稳定性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。