QUICK REVIEW

[论文解读] A Dirichlet Mixture Model of Hawkes Processes for Event Sequence Clustering

Hongteng Xu, Hongyuan Zha|arXiv (Cornell University)|Jan 31, 2017

Bayesian Methods and Mixture Models参考文献 44被引用 40

一句话总结

本文提出了一种狄利克雷高斯混合点过程（DMHP），一种基于模型的聚类方法，通过使用具有聚类特异性参数的霍克斯过程以及对聚类的狄利克雷先验，对异步事件序列进行建模。该方法通过变分贝叶斯推断结合自适应内部迭代策略，实现了对结构性触发模式的稳健识别，并在聚类纯度和一致性方面表现优异。

ABSTRACT

We propose an effective method to solve the event sequence clustering problems based on a novel Dirichlet mixture model of a special but significant type of point processes --- Hawkes process. In this model, each event sequence belonging to a cluster is generated via the same Hawkes process with specific parameters, and different clusters correspond to different Hawkes processes. The prior distribution of the Hawkes processes is controlled via a Dirichlet distribution. We learn the model via a maximum likelihood estimator (MLE) and propose an effective variational Bayesian inference algorithm. We specifically analyze the resulting EM-type algorithm in the context of inner-outer iterations and discuss several inner iteration allocation strategies. The identifiability of our model, the convergence of our learning method, and its sample complexity are analyzed in both theoretical and empirical ways, which demonstrate the superiority of our method to other competitors. The proposed method learns the number of clusters automatically and is robust to model misspecification. Experiments on both synthetic and real-world data show that our method can learn diverse triggering patterns hidden in asynchronous event sequences and achieve encouraging performance on clustering purity and consistency.

研究动机与目标

为解决由不同底层点过程生成的异步、连续时间事件序列的聚类挑战。
开发一种基于模型的聚类方法，避免特征工程，并降低基于特征方法固有的过拟合风险。
确保模型可识别性，并提升学习复杂时间依赖关系时的收敛性与计算效率。
实现在多种现实应用场景中对事件序列内自触发模式的稳健检测。

提出的方法

DMHP模型假设每个聚类的事件序列由具有聚类特异性强度参数（基线率μ和影响矩阵A）的独立霍克斯过程生成。
使用狄利克雷分布作为混合分量权重（π）的非信息先验，以实现灵活的聚类分配。
在EM框架内开发了一种嵌套的变分贝叶斯推断算法，联合估计聚类分配、模型参数和分量权重。
受开环控制理论启发，提出一种自适应内部迭代分配策略，动态调整每步EM的内部迭代次数，以平衡收敛速度与计算成本。
利用詹森不等式推导出目标函数的代理下界（Q函数），通过优化变分下界实现μ和A的闭式更新。
对于非参数聚类，采用基于MCMC的方案对分量进行随机合并或分裂，对合并/分裂后的聚类执行确定性参数更新。

实验结果

研究问题

RQ1能否使狄利克雷高斯混合点过程在局部上可识别，以确保聚类特异性参数的唯一恢复？
RQ2如何高效地调整变分推断以学习DMHP模型，同时平衡收敛性与计算复杂度？
RQ3所提出的自适应内部迭代策略是否在收敛速度与聚类准确率方面优于固定迭代或启发式迭代方案？
RQ4DMHP聚类方法在真实与合成数据上的聚类纯度与一致性方面，相较于现有基于特征或基于模型的聚类方法表现如何？
RQ5在模型误设或噪声数据条件下，该模型是否能稳健地恢复异步事件序列中的结构性触发模式？

主要发现

DMHP模型被证明具有局部可识别性，确保不同的参数集对应不同的数据生成过程。
自适应内部迭代策略显著加快了收敛速度，相比固定迭代基线方法，实现了更快的优化，且聚类性能相当或更优。
所提方法在合成数据与真实世界数据集上均实现了更优的聚类纯度与一致性，优于现有的基于特征与基于模型的聚类方法。
由于采用合理的贝叶斯参数先验与低参数数量，该模型对过拟合与模型误设表现出稳健性。
基于MCMC的分量更新机制可自动估计最优聚类数，支持无需预先知晓K值的非参数聚类。
实证结果表明，DMHP模型能有效揭示事件序列中的潜在触发模式，如自激励与跨类型影响，在IPTV与电子健康记录等应用中表现良好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。