Skip to main content
QUICK REVIEW

[論文レビュー] Distance Dependent Chinese Restaurant Processes

David M. Blei, Peter I. Frazier|arXiv (Cornell University)|Oct 6, 2009
Bayesian Methods and Mixture Models参考文献 36被引用数 49
ひとこと要約

本稿では、ペアワイズ距離に基づいてデータポイント間の依存関係をモデル化する非交換性のあるベイジアン非パラメトリックなパーティション事前分布として、距離に依存する中国レストラン過程(ddCRP)を導入する。CRPをテーブル割り当てではなく顧客間の割り当てに基づいて再パrameter化することにより、特に時系列および空間データにおいて、潜在的および完全に観測された混合モデルにおけるより高速な混合性を示すギブスサンプリングを可能にする。

ABSTRACT

We develop the distance dependent Chinese restaurant process (CRP), a flexible class of distributions over partitions that allows for non-exchangeability. This class can be used to model many kinds of dependencies between data in infinite clustering models, including dependencies across time or space. We examine the properties of the distance dependent CRP, discuss its connections to Bayesian nonparametric mixture models, and derive a Gibbs sampler for both observed and mixture settings. We study its performance with three text corpora. We show that relaxing the assumption of exchangeability with distance dependent CRPs can provide a better fit to sequential data. We also show its alternative formulation of the traditional CRP leads to a faster-mixing Gibbs sampling algorithm than the one based on the original formulation.

研究の動機と目的

  • 従来の中国レストラン過程(CRP)が時系列や空間データのような非交換性データをモデル化する点で限界を示す問題に対処すること。
  • データポイント間の構造的依存関係を組み込む、柔軟で距離に依存するパーティションに関する事前分布を構築すること。
  • 効率的な事後分布推論を可能にする、顧客割り当て表現に基づく汎用ギブスサンプリングアルゴリズムを導出すること。
  • ddCRPの定式化が、ディリクレ過程混合モデルにおける標準的な畳み込みギブスサンプラーと比較して、より高速な混合性を示すことを示すこと。
  • 交換性仮定を緩和することで、時系列およびネットワーク構造データへの適合性が向上することを実証すること。

提案手法

  • 各データポイント(顧客)が、それらの距離に依存する確率で他のデータポイントに割り当てられる、顧客割り当てに基づくCRP表現を提案する。
  • ペアワイズ距離の上に定義される減衰関数を用いて、距離に依存する顧客割り当て確率を定義し、減衰関数が定数の場合は標準CRPが特殊ケースとして得られることを示す。
  • 各顧客の割り当てを逐次的に再サンプリングするギブスサンプラーを導出する。これにより、クラスタメンバーシップがこれらの割り当てを通じて更新される。
  • 顧客割り当てからテーブル割り当て(パーティション)を再構築し、潜在的なクラスタリング構造に関する推論を可能にする。
  • テキストコーパスにCRP混合モデルを適用し、計算を効率化するために共役なベース測度を選択する。
  • 各ギブスステップで、点の集合の追加/削除に伴う尤度の変化を評価する計算戦略を採用する。これにより、標準的な畳み込みサンプラーと同等の計算複雑度を維持する。

実験結果

リサーチクエスチョン

  • RQ1時間的・空間的、またはネットワークベースの依存関係を組み込んだ、非交換性のパーティション事前分布を構築できるか?
  • RQ2ddCRPにおける顧客割り当て表現は、従来のテーブルベースのCRP表現と比較して、より効率的な事後分布推論をどのように可能にするか?
  • RQ3ddCRPの定式化は、時系列または構造的データに適用した際、MCMCサンプラーの混合性を向上させるか?
  • RQ4ddCRPは、減衰関数が恒等関数の場合に標準CRPを回復できるか?また、その場合に同一の事後分布を維持するか?
  • RQ5実世界のテキストコーパスにおいて、ddCRPに基づくギブスサンプラーの収束性および混合性は、標準的な畳み込みギブスサンプラーと比べてどのように異なるか?

主な発見

  • 距離に依存するCRPは、時間的・空間的・ネットワーク的構造に基づくデータの依存関係を効果的にモデル化でき、非交換性データに対するより現実的な事前分布を提供する。
  • 減衰関数が定数の場合はddCRPの定式化が従来のCRPを回復するため、既存のモデルと整合性が保たれる。
  • 顧客割り当てに基づくギブスサンプラーは、一度に複数の点のクラスタ割り当てを変更できる大規模なステップを可能にし、結果としてより高速な混合性を実現する。
  • サイエンスおよびニューヨーク・タイムズのテキストコーパスにおける実証的結果から、ddCRPに基づくサンプラーは標準的な畳み込みギブスサンプラーと比較して、収束が速く、局所最適解に陥りにくいことが示された。
  • 1ステップあたりの計算複雑度は同一であるが、ddCRPサンプラーは状態空間におけるより大きな、より効果的な移動が可能であるため、事後分布の探索がより効果的である。
  • 従来のCRP混合モデルにおけるddCRP表現は、より高速な混合性を示すギブスサンプラーをもたらし、DP混合モデルにおける実用的な性能向上を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。