QUICK REVIEW

[論文レビュー] Finite mixture models are typically inconsistent for the number of components

Diana Cai, Trevor Campbell|arXiv (Cornell University)|Jul 8, 2020

Bayesian Methods and Mixture Models参考文献 18被引用数 3

ひとこと要約

この論文は、成分数に事前分布を置いた有限混合モデル（FMMs）が、たとえ最小限のモデル不適合であっても、成分数の推定において極めて強い不一致性を示すことを示している。データが無限に増大するにつれ、真の成分数である確率の後部確率は0に収束する。著者はこの不一致性を厳密に証明し、シミュレーションおよび実データを用いた実用的影響を示し、モデル選択における一般的な仮定に疑問を呈する。

ABSTRACT

Scientists and engineers are often interested in learning the number of subpopulations (or components) present in a data set. Practitioners commonly use a Dirichlet process mixture model (DPMM) for this purpose; in particular, they count the number of clusters---i.e. components containing at least one data point---in the DPMM posterior. But Miller and Harrison (2013) warn that the DPMM cluster-count posterior is severely inconsistent for the number of latent components when the data are truly generated from a finite mixture; that is, the cluster-count posterior probability on the true generating number of components goes to zero in the limit of infinite data. A potential alternative is to use a finite mixture model (FMM) with a prior on the number of components. Past work has shown the resulting FMM component-count posterior is consistent. But existing results crucially depend on the assumption that the component likelihoods are perfectly specified. In practice, this assumption is unrealistic, and empirical evidence (Miller and Dunson, 2019) suggests that the FMM posterior on the number of components is sensitive to the likelihood choice. In this paper, we add rigor to data-analysis folk wisdom by proving that under even the slightest model misspecification, the FMM posterior on the number of components is ultraseverely inconsistent: for any finite $k \in \mathbb{N}$, the posterior probability that the number of components is $k$ converges to 0 in the limit of infinite data. We illustrate practical consequences of our theory on simulated and real data sets.

研究の動機と目的

成分の尤度関数がわずかに不適合であっても、有限混合モデル（FMMs）が真の成分数を推定する際の一致性を調査すること。
FMMに成分数への事前分布を置くことで、実務においてモデル選択に信頼できるという一般的な仮定に疑問を呈すること。
FMMの後部分布が真の成分数に集中しなくなる理論的条件を確立すること。
不一致性が理論的珍念にとどまらず、シミュレーションおよび実データ例を通じて実用的懸念であることを示すこと。

提案手法

著者たちは、モデル不適合下でのFMMにおける成分数の後部分布の漸近的挙動を分析する。
大標本の漸近論および測度集中の理論的枠組みを用い、標本サイズが増加するにつれて真の成分数の後部確率が消滅することを示す。
成分密度がわずかにでも正確に指定されていない場合に注目する。
真の成分密度と仮定された成分密度の間のカルバック・ライバラー距離の上限を用いて、主要な結果を導出する。
任意の有限な k ∈ ℕ に対して、n → ∞ の下で、P(k 個の成分 | データ) → 0 であることを示す。
理論的結果は、シミュレーションおよび実データの例によって補完され、実用的影響を示す。

実験結果

リサーチクエスチョン

RQ1成分の尤度関数がわずかに不適合であっても、有限混合モデルにおける成分数の後部分布は一貫性を示すか？
RQ2モデル不適合下で、標本サイズが増加するにつれて、真の成分数の後部確率は1に収束するか？
RQ3モデル不適合は、成分数の推定の信頼性にどのように影響を与えるか？
RQ4最小限の仮定のもとで、FMMの成分数推定における不一致性を定量化し、厳密に証明できるか？
RQ5この不一致性は、実世界のデータ解析においてどのような実用的影響を及ぼすか？

主な発見

いかなるモデル不適合に対しても、たとえ任意に小さいものであっても、標本サイズが無限に近づくにつれて、真の成分数である確率の後部確率は0に収束する。
この不一致性は弱いかつるいにとどまらず、「極めて深刻」なものであり、標本サイズがいくら大きくても、真の成分数に後部分布が集中しないことを意味する。
これは任意の有限な成分数 k ∈ ℕ に対して成り立つため、モデル選択の目的で成分数への事前分布を用いたFMMの使用に根本的な欠陥があることを示している。
シミュレーションおよび実データセットからの実証的証拠は、成分数の後部分布が尤度関数の選択に極めて敏感であり、真の成分数を回復できないことを確認している。
この研究の結果は、成分密度が完全に把握されていない状況において、FMMに成分数への事前分布を用いることの広範な実務的使用に疑問を呈する。
本論文は、仮定された成分モデルからのわずかな逸脱が、成分数の後部推定に系統的な誤差をもたらすことを確立している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。