QUICK REVIEW

[論文レビュー] A simple example of Dirichlet process mixture inconsistency for the number of components

Jeffrey W. Miller, Matthew Tom Harrison|arXiv (Cornell University)|Jan 12, 2013

Bayesian Methods and Mixture Models参考文献 17被引用数 86

ひとこと要約

この論文は、有限混合モデルにおける真のコンポonent数の推定に関して、ディリクレ過程混合（DPMs）が一貫性を示さないことを示している。最も単純な状況ですら、標準正規分布に従うデータに対して、分散が1の正規分布コンポonentを用いたDPMを適用した場合でさえ、そのような一貫性が欠如している。サンプルサイズが増加するにつれ、データが1つのクラスタであるという事後確率は0に収束する。これは、コンポonent数推定において深刻な一貫性の欠如を示している。

ABSTRACT

For data assumed to come from a finite mixture with an unknown number of components, it has become common to use Dirichlet process mixtures (DPMs) not only for density estimation, but also for inferences about the number of components. The typical approach is to use the posterior distribution on the number of components occurring so far --- that is, the posterior on the number of clusters in the observed data. However, it turns out that this posterior is not consistent --- it does not converge to the true number of components. In this note, we give an elementary demonstration of this inconsistency in what is perhaps the simplest possible setting: a DPM with normal components of unit variance, applied to data from a "mixture" with one standard normal component. Further, we find that this example exhibits severe inconsistency: instead of going to 1, the posterior probability that there is one cluster goes to 0.

研究の動機と目的

ディリクレ過程混合（DPMs）が有限混合モデルにおけるコンポonent数の推定に関して一貫性を示さないことを示すこと。
この一貫性の欠如が、最も単純な状況でも生じることを示すこと：分散が1の正規分布コンポonentを用いたDPMを、1つの標準正規分布から生成されたデータに適用した場合。
サンプルサイズが増加するにつれて、1つのクラスタであるという事後確率が0に収束することを証明すること。ただし、真のコンポonent数は1である。
有限混合モデルにおけるコンポonent数推定にDPMの事後分布に依存することの危険性を強調すること。

提案手法

集中パrameter α=1 の標準正規DPMを用い、コンポonent平均のための正規ベース測度と固定された単位分散を採用する。
中国レストラン過程（CRP）を用いて、正確に t 個のクラスタを持つ事後確率 p(Tₙ = t | X₁:n) を定義する。
1クラスタと2クラスタのモデルの周辺尤度を比較するため、正規化された周辺尤度比 R₁ と R₂ を導入する。
U統計量に対するホーフィングの強大数法則を適用し、R₂(X₁:n) → ∞ が確率的に成り立つことを示す。一方、R₁(X₁:n) は確率的に有界のまま保たれる。
p(Tₙ = 1 | X₁:n) ≤ R₁ / R₂ → 0 が確率的に成り立つことから、一貫性の欠如を証明する。
E[h(Xₛ)] = 1 であることと調和平均の漸近的挙動を用いて、R₂ の成長を抑え、R₁ を制御する。

実験結果

リサーチクエスチョン

RQ1有限混合モデルから生成されたデータに対して、ディリクレ過程混合におけるクラスタ数の事後分布は、真のコンポonent数に収束するか？
RQ2最も単純な状況——1つの標準正規分布から生成されたデータに、分散が1の正規分布コンポonentを用いたDPMを適用した場合——1つのクラスタであるという事後確率は1に収束するか？
RQ3データが実際に1つのコンポonentから生成された場合、標準正規DPMにおける1クラスタの事後確率の漸近的挙動はいかなるものか？
RQ4コンポonent数推定における一貫性の欠如は定量的に評価可能か？また、その影響は深刻か？
RQ5有限混合モデルにおけるコンポonent数の推定にDPMの事後分布を用いることは、根本的な欠陥を含んでいるか？

主な発見

データが1つの正規分布コンポonentから生成されたとしても、クラスタ数が1であるという事後確率 p(Tₙ = 1 | X₁:n) は、n → ∞ のとき確率的に0に収束する。
比 R₂(X₁:n) = n³/² × p(X₁:n, Tₙ=2) / p₀(X₁:n) はほとんど確実に無限大に発散する。これは2つのクラスタに対する強い支援を示している。
比 R₁(X₁:n) = n³/² × p(X₁:n, Tₙ=1) / p₀(X₁:n) は確率的に有界（Oₚ(1)）であり、n に従って増大しない。
比 R₁ / R₂ → 0 が確率的に成り立つ。これは、1つのクラスタに有利な事後オッズが漸近的に消滅することを意味する。
この一貫性の欠如は深刻である。正しく推定すべきコンポonent数（1）に対応する事後確率が1に収束するのではなく、0に収束する。
この結果は α = 1 に限らず、任意の α > 0 に対して成り立つ。これは、DPMがコンポonent数推定において一般に不安定であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。