QUICK REVIEW

[論文レビュー] A Dirichlet Mixture Model of Hawkes Processes for Event Sequence Clustering

Hongteng Xu, Hongyuan Zha|arXiv (Cornell University)|Jan 31, 2017

Bayesian Methods and Mixture Models参考文献 44被引用数 40

ひとこと要約

本稿では、非同期イベント系列をモデル化するための、クラスタ固有のパラメータとクラスタ上でのディリクレ事前分布を用いた、モデルベースのクラスタリング手法であるディリクレ混合ヒューズ過程（DMHP）を提案する。この手法により、変分ベイズ推論に適応的内挙動戦略を組み合わせることで、構造的トリガーパターンの強固な同定が可能となり、クラスタリングの純度と一貫性が向上する。

ABSTRACT

We propose an effective method to solve the event sequence clustering problems based on a novel Dirichlet mixture model of a special but significant type of point processes --- Hawkes process. In this model, each event sequence belonging to a cluster is generated via the same Hawkes process with specific parameters, and different clusters correspond to different Hawkes processes. The prior distribution of the Hawkes processes is controlled via a Dirichlet distribution. We learn the model via a maximum likelihood estimator (MLE) and propose an effective variational Bayesian inference algorithm. We specifically analyze the resulting EM-type algorithm in the context of inner-outer iterations and discuss several inner iteration allocation strategies. The identifiability of our model, the convergence of our learning method, and its sample complexity are analyzed in both theoretical and empirical ways, which demonstrate the superiority of our method to other competitors. The proposed method learns the number of clusters automatically and is robust to model misspecification. Experiments on both synthetic and real-world data show that our method can learn diverse triggering patterns hidden in asynchronous event sequences and achieve encouraging performance on clustering purity and consistency.

研究の動機と目的

異なる潜在的な点過程によって生成される非同期的で連続時間のイベント系列のクラスタリングという課題に対処すること。
特徴量の設計を回避し、特徴量ベースの手法に内在する過学習のリスクを低減するモデルベースのクラスタリングアプローチの開発。
モデルの同定可能性を保証し、複雑な時系列依存関係を学習する際の収束性と計算効率を向上させること。
多様な実世界の応用分野において、イベント系列内での自己励起パターンの強固な検出を可能にすること。

提案手法

DMHPモデルは、各クラスタのイベント系列が、クラスタ固有の強度パラメータ（ベースラインレート μ と影響行列 A）を持つ別個のヒューズ過程によって生成されると仮定する。
混合成分重み（π）に対する非情報的事前分布としてディリクレ分布を用い、柔軟なクラスタ割り当てを可能にする。
EMフレームワーク内に、クラスタ割り当て、モデルパラメータ、成分重みを同時に推定するためのネスト型変分ベイズ推論アルゴリズムを開発する。
オープンループ制御理論にインspiredされた、EMステップごとの内挙動の反復回数を動的に調整する適応的内挙動割り当て戦略を導入し、収束速度と計算コストのバランスを最適化する。
ジェンセンの不等式を用いて目的関数の下界（Q関数）を導出し、変分下界の最適化により μ と A の閉形式更新を可能にする。
非パラメトリッククラスタリングのため、MCMCに基づくスキームを用いて成分を確率的に統合または分割し、統合／分割されたクラスタに対して決定的パラメータ更新を実施する。

実験結果

リサーチクエスチョン

RQ1ディリクレ混合ヒューズ過程が局所的に同定可能であるように設計できるか、クラスタ固有のパラメータの一意的回復が保証されるか？
RQ2収束性と計算複雑性のバランスを考慮して、変分推論を効率的にDMHPモデルに適応できるか？
RQ3提案された適応的内挙動戦略は、固定反復またはヒューリスティック反復戦略に比べ、収束速度とクラスタリング精度の面で優れているか？
RQ4DMHPに基づくクラスタリング手法は、実データおよび合成データにおいて、既存の特徴量ベースやモデルベースのクラスタリング手法と比較して純度と一貫性に優れているか？
RQ5モデルの誤指定やノイズの多いデータ下でも、非同期イベント系列における構造的トリガーパターンをモデルが強固に回復できるか？

主な発見

DMHPモデルは局所的に同定可能であることが証明され、異なるパラメータセットが異なるデータ生成過程に対応することが保証される。
適応的内挙動戦略により、固定反復ベースラインに比べて収束が著しく高速化され、同等または優れたクラスタリング性能を達成する。
提案手法は、合成データおよび実世界データの両方において、既存の特徴量ベースおよびモデルベースのクラスタリング手法を上回る優れたクラスタリング純度と一貫性を達成する。
原理的ベイズパラメータ事前分布と少ないパラメータ数のおかげで、過学習およびモデル誤指定に対して強い耐性を示す。
MCMCに基づく成分更新メカニズムにより、事前にKの値を知らなくても最適なクラスタ数の自動推定が可能となり、非パラメトリッククラスタリングを支援する。
実験的結果から、DMHPモデルがIPTVや電子的健康記録の応用分野において、イベント系列内に隠れたトリガーパターン（自己励起やタイプ間影響）を効果的に同定できることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。