Skip to main content
QUICK REVIEW

[論文レビュー] Bayesian Agglomerative Clustering with Coalescents

Yee Whye Teh, Hal Daumé|ArXiv.org|Jul 4, 2009
Bayesian Methods and Mixture Models参考文献 11被引用数 73
ひとこと要約

本稿では、キングマンの共alescentを階層的木構造上の非パrametric事前分布として用いる、新しいベイジアン凝集型クラスタリングモデルを提案する。このモデルにより、効率的なグリーディおよび逐次モンテカルロ推論が可能となり、ドキュメントおよび系統言語学的データにおいて優れたクラスタリング性能を達成する。交換可能性のある事前分布の予測的整合性と、凝集型アルゴリズムの計算効率を組み合わせることで、優れた性能を実現する。

ABSTRACT

We introduce a new Bayesian model for hierarchical clustering based on a prior over trees called Kingman's coalescent. We develop novel greedy and sequential Monte Carlo inferences which operate in a bottom-up agglomerative fashion. We show experimentally the superiority of our algorithms over others, and demonstrate our approach in document clustering and phylolinguistics.

研究の動機と目的

  • 交換可能性のある事前分布の予測的整合性と、凝集型推論の効率性を統合したベイジアン階層的クラスタリングモデルの開発。
  • 欠損データの処理が不十分で、予測的意味論的解釈が欠如している既存の確率的クラスタリングモデルの限界を解消すること。
  • 凝集型の下位から上位への構築様式に従い、グリーディおよび逐次モンテカルロ(SMC)アルゴリズムを用いて効率的な推論を可能とすること。
  • データポイントの導出される分布が交換可能であることを保証し、新しいデータへの一貫した拡張を可能とすること。
  • 実世界のデータセット(NIPSの要約および系統言語学的データを含む)において、強力な経験的性能を示すこと。

提案手法

  • 木構造上の非パrametric事前分布としてキングマンの共alescentを用い、データポイントの系統的合体を時間の逆方向にモデル化する。
  • 連続時間で定義された、パーティション値をとるマルコフ過程を採用し、残存するm本の系統が存在するとき、各ペアの合体率は$\binom{m}{2}$となる。
  • 合体率に基づいて次のマージを選択するグリーディ推論アルゴリズム(Greedy-Rate1)を構築し、$O(n^2)$の実行時間で実現する。
  • 逐次モンテカルロ(SMC)推論を用いて木の事後分布からのサンプリングを実施し、重み付きのパーティクル木の集合を維持する。
  • 共alescent木の各分岐点で対数尤度比を用い、最適なフラットクラスタ分割を決定する。
  • クラスタリングの前処理として、少なくとも100個のNIPS要約に出現する語のみを保持し、カウントをバイナリに変換する。

実験結果

リサーチクエスチョン

  • RQ1キングマンの共alescentは、ベイジアン階層的クラスタリングフレームワークにおいて、効果的かつ交換可能なクラスタリング木の事前分布として機能できるか?
  • RQ2本モデルに対して、凝集型の下位から上位へのアプローチに従う、効率的なグリーディおよびSMC推論アルゴリズムを設計できるか?
  • RQ3提案されたモデルは、予測的性能およびクラスタリング品質の観点で、既存の凝集型クラスタリング手法を上回るか?
  • RQ4本モデルは、ドキュメントコレクションや言語系統系統図といった実世界のデータに、どれほど一般化可能か?
  • RQ5本モデルが誘導する潜在的な確率分布は何か?また、データ量が増加するにつれて、事後分布は真の分布に収束するか?

主な発見

  • Greedy-Rate1アルゴリズムは$O(n^2)$の実行時間で実現され、他のグリーディ手法と同等のクラスタリング品質を達成するため、推奨される選択肢である。
  • NIPS要約において、本モデルは9つの意味的なクラスタを同定し、マイク・ジョーダン氏が関与する共通の著者を持つにもかかわらず、ベイジアン学習(クラスタ5)と非ベイジアン学習(クラスタ7)を明確に分離した。
  • クラスタ2と3の分岐における対数尤度比はわずか0.105であり、これは両クラスタが非常に類似しており、わずかに高い閾値では合体する可能性があることを示している。
  • 経験的結果から、ドキュメントクラスタリングおよび系統言語学的応用の両方において、本モデルが他の凝集型クラスタリングアルゴリズムを上回ることを示した。
  • 本モデルの交換可能事前分布により、新しいデータに対する一貫した予測が可能となり、より大きな確率的モデル内に自然に統合できる。
  • 理論的分析により、モデルの一貫性と既知のプロセスとの関連性が確認された:突然変異が率$\alpha/2$に従い、新しい状態が$H$から独立同分布に従う場合、誘導される分布はディリクレ過程$DP(\alpha, H)$となる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。