QUICK REVIEW

[論文レビュー] Inconsistency of Pitman-Yor process mixtures for the number of components

Jeffrey W. Miller, Matthew Tom Harrison|arXiv (Cornell University)|Aug 30, 2013

Bayesian Methods and Mixture Models参考文献 25被引用数 55

ひとこと要約

この論文は、有限混合モデルにおける成分数の推定に関して、ピルマン＝ヨア過程混合（PYMs）とディリクレ過程混合（DPMs）が不一致であることを示している。ベイズ非パラメトリック統計におけるクラスタリングや密度推定への広範な応用にもかかわらず、データが有限混合から生成されても、標本サイズが増大してもクラスタ数の事後分布は真の成分数に集中しない。この不一致は、離散的および連続的指数型分布族（多変量正規分布を含む）の広いクラスにわたって成立する。

ABSTRACT

In many applications, a finite mixture is a natural model, but it can be difficult to choose an appropriate number of components. To circumvent this choice, investigators are increasingly turning to Dirichlet process mixtures (DPMs), and Pitman-Yor process mixtures (PYMs), more generally. While these models may be well-suited for Bayesian density estimation, many investigators are using them for inferences about the number of components, by considering the posterior on the number of components represented in the observed data. We show that this posterior is not consistent --- that is, on data from a finite mixture, it does not concentrate at the true number of components. This result applies to a large class of nonparametric mixtures, including DPMs and PYMs, over a wide variety of families of component distributions, including essentially all discrete families, as well as continuous exponential families satisfying mild regularity conditions (such as multivariate Gaussians).

研究の動機と目的

データが有限混合から生成される場合に、ピルマン＝ヨア過程混合（PYMs）におけるクラスタ数の事後推論が一貫性を持つかどうかを調査すること。
標本サイズが増大するにつれて、クラスタ数の事後分布が真の成分数に集中するかどうかを特定すること。
この不一致の結果をディリクレ過程混合にとどまらず、より広い非パラメトリック混合モデルのクラスへと拡張すること。
成分数が有限であるがしばしば未知である人口遺伝学などの実応用におけるPYMsの挙動を分析すること。
実証的現象である、データが既知の有限個の成分から来ているにもかかわらず、PYMsとDPMsが依然として偽の小さなクラスタを生成する理由を理論的に正当化すること。

提案手法

著者たちは、測度論的および漸近的確率論的手法を用いて、ピルマン＝ヨア過程混合モデルにおけるクラスタ数の事後分布を分析する。
観察数が増加しても、クラスタ数の事後分布が真の成分数に集中しない条件を導出する。
証明は、パラメータ空間における尤度の積分の振る舞いに注目したラプラース近似技術を用いて、尤度のマージナル尤度をバウンディングすることに依存する。
主な技術的ツールとして、多変数ラプラース近似バウンディング（補題C.1および系C.2）を用い、事後分布の尾部挙動と尤度のモードまわりの集中度を制御する。
全指数型分布族の成分分布を考慮し、ややきめの条件のもとで一貫性の失敗を確立する。
滑らかさおよび対数尤度の湾曲度条件を満たすことで、離散的および連続的指数型分布族（多変量正規混合を含む）にこのフレームワークを適用可能にする。

実験結果

リサーチクエスチョン

RQ1データが有限混合から生成される場合に、ピルマン＝ヨア過程混合におけるクラスタ数の事後分布が真の成分数に集中するか。
RQ2クラスタ数の事後分布の不一致は、ディリクレ過程混合に特有のものか、それともより広いピルマン＝ヨア過程混合のクラスにまで拡張されるか。
RQ3クラスタ数の事後分布が一貫性を失う条件としての成分分布族の性質は何か。
RQ4なぜ実証的結果では、データが既知の有限個の成分から来ているにもかかわらず、継続的に小さな偽クラスタが現れるのか。
RQ5マージナル尤度および事後分布の集中度に関する理論的バウンディングは、クラスタリング推論における観察された一貫性の欠如を説明できるか。

主な発見

データが有限混合から生成されても、標本サイズが無限大に近づくにつれて、ピルマン＝ヨア過程混合におけるクラスタ数の事後分布は真の成分数に集中しない。
この不一致は、すべての離散的指数型分布族および多変量正規分布を含む連続的指数型分布族（ややきめの条件のもと）の広いクラスにわたって成立する。
一貫性の失敗は、モデルの誤指定によるものではなく、無限個の成分を正の確率で許容する非パラメトリック事前分布の本質的性質に起因する。
実データ（インパラ）およびシミュレートデータ（2次元正規分布）に対するギブスサンプリングの実証的結果は、継続的な小さなクラスタと、真の値に収束しないクラスタ数の事後分布を示している。
ラプラース近似バウンディングを用いた理論的分析により、マージナル尤度が真の成分数を好むとは限らず、すなわち漸近的にも偽クラスタが非ゼロの事後確率を持つため、不一致が確認された。
この不一致の結果は、ディリクレ過程混合にとどまらず、より一般のピルマン＝ヨア過程混合に対しても成立し、有限混合設定におけるクラスタ数の事後分布を信頼できる推論ツールとして用いることの妥当性を揺るがす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。