Skip to main content
QUICK REVIEW

[论文解读] Dynamic clustering of time series data

Victhor S. Sartório, Thaís C. O. Fonseca|arXiv (Cornell University)|Jan 28, 2020
Time Series Analysis and Forecasting被引用 1
一句话总结

本文提出一种基于演化狄利克雷过程驱动的时变混合权重的动态线性模型(DLM)混合模型,用于多变量时间序列的动态聚类,实现平滑、时变的聚类成员关系过渡。该方法结合高效的随机期望最大化(Stochastic EM)与梯度下降法,实现快速点估计,并在可再生能源与Gapminder数据集上表现出色,能够捕捉结构突变而无需静态聚类分配。

ABSTRACT

We propose a new method for clustering multivariate time-series data based on Dynamic Linear Models. Whereas usual time-series clustering methods obtain static membership parameters, our proposal allows each time-series to dynamically change their cluster memberships over time. In this context, a mixture model is assumed for the time series and a flexible Dirichlet evolution for mixture weights allows for smooth membership changes over time. Posterior estimates and predictions can be obtained through Gibbs sampling, but a more efficient method for obtaining point estimates is presented, based on Stochastic Expectation-Maximization and Gradient Descent. Finally, two applications illustrate the usefulness of our proposed model to model both univariate and multivariate time-series: World Bank indicators for the renewable energy consumption of EU nations and the famous Gapminder dataset containing life-expectancy and GDP per capita for various countries.

研究动机与目标

  • 解决时间序列聚类中静态聚类分配的局限性,即时间序列可能随时间改变行为模式。
  • 以比现有基于隐马尔可夫模型(HMM)或k-means类方法更灵活的方式,建模多变量时间序列中的时变聚类成员关系。
  • 开发一种计算高效的估计方法,用于动态混合模型,以实现对大规模或高维时间序列的实际应用。
  • 展示该方法在正确分类具有结构断裂或渐变行为的时间序列方面的能力,避免将异常值或过渡行为误分类。

提出的方法

  • 将时间序列建模为动态线性模型(DLM)的混合模型,其中每个聚类拥有独立的时变状态向量和观测分布。
  • 为每个时间序列i在时间t引入时变混合权重ηit,通过演化狄利克雷过程建模,以实现聚类间平滑过渡。
  • 采用随机期望最大化(SEM)结合梯度下降法进行快速点估计,相比马尔可夫链蒙特卡洛(MCMC)方法显著降低计算成本。
  • 在需要后验分布和不确定性量化时,应用吉布斯抽样进行完整贝叶斯推断。
  • 通过DLM引入状态空间动态,以捕捉每个聚类内部的时间依赖性。
  • 开发了一个Python库(dynmix),用于实际实现与可复现性。

实验结果

研究问题

  • RQ1能否使用动态DLM混合模型有效建模随时间改变聚类成员关系的时间序列?
  • RQ2如何实现聚类成员关系的平滑、时变过渡,而非突变或静态分配?
  • RQ3所提出的方法在捕捉时间序列数据中的结构突变方面,是否优于静态聚类或HMM类方法?
  • RQ4该模型能否处理具有复杂、多维差异行为的多变量时间序列?
  • RQ5与MCMC相比,所提出的点估计方法在运行时间和可扩展性方面效率如何?

主要发现

  • 该模型成功捕捉了博茨瓦纳和赤道几内亚从低人均GDP过渡到高的人均GDP,同时维持低预期寿命的特征,始终正确地将它们分类为非洲组成员。
  • 对于北非国家和土耳其,模型检测到聚类成员关系的动态变化:利比亚在1967至1977年间,其欧洲组成员关系从45%上升至88%,与GDP增长同步。
  • 阿尔巴尼亚、波斯尼亚和黑塞哥维那、毛里求斯和留尼汪在1952年分类不确定性较高(约50%),表明处于过渡状态,但很快演变为稳定的欧洲组成员。
  • 对于82个二维时间序列(共12个时间点),点估计方法在约2分钟内收敛,而MCMC方法耗时约20分钟,显示出显著的速度提升。
  • 通过允许聚类成员关系的渐进、时变变化,该模型避免了对异常值或过渡阶段观测的误分类,优于静态或突变式过渡模型。
  • 演化狄利克雷过程有效建模了时变混合权重,实现了无需先验已知突变点的平滑过渡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。