Skip to main content
QUICK REVIEW

[论文解读] On Clustering Time Series Using Euclidean Distance and Pearson Correlation

Michael R. Berthold, Frank Höppner|arXiv (Cornell University)|Jan 10, 2016
Time Series Analysis and Forecasting被引用 48
一句话总结

本文证明了z-score标准化的平方欧几里得距离在常数因子下与皮尔逊相关系数的倒数数学等价,从而使得基于欧几里得距离的聚类算法(如k-Means)可通过简单的数据预处理实现基于皮尔逊相关系数的聚类。实验结果表明,即使不修改算法以标准化聚类中心原型,标准k-Means在标准化数据上的结果也与理论上正确的版本几乎完全一致,验证了标准化作为皮尔逊相关系数在时间序列聚类中实用且有效的替代方法。

ABSTRACT

For time series comparisons, it has often been observed that z-score normalized Euclidean distances far outperform the unnormalized variant. In this paper we show that a z-score normalized, squared Euclidean Distance is, in fact, equal to a distance based on Pearson Correlation. This has profound impact on many distance-based classification or clustering methods. In addition to this theoretically sound result we also show that the often used k-Means algorithm formally needs a mod ification to keep the interpretation as Pearson correlation strictly valid. Experimental results demonstrate that in many cases the standard k-Means algorithm generally produces the same results.

研究动机与目标

  • 阐明标准化欧几里得距离与皮尔逊相关系数在时间序列相似性度量中的数学关系。
  • 探讨在聚类算法中以标准化欧几里得距离替代皮尔逊相关系数的理论与实际影响。
  • 评估标准k-Means在标准化数据上的表现是否与经过修改以正确标准化聚类中心原型的k-Means在皮尔逊相关系数语义下等价。
  • 证明通过z-score标准化进行预处理,可使标准算法在无需代码修改的情况下有效使用皮尔逊相关系数作为相似性度量。

提出的方法

  • 推导z-score标准化的平方欧几里得距离与皮尔逊相关系数倒数之间的数学等价性。
  • 证明该等价性在常数因子下成立,意味着两种度量对时间序列对的排序结果完全一致。
  • 提出一种修改后的k-Means算法,通过标准化聚类中心原型以严格保持皮尔逊相关系数的语义。
  • 采用基于熵的聚类比较方法,评估标准k-Means在标准化数据上与经原型标准化的修改版k-Means所产生的聚类之间的相似性。
  • 使用多个时间序列数据集(如Gun Point、Synthetic Control、ECG)对不同方法的聚类稳定性与性能进行实证比较。
  • 通过不同运行和算法变体之间聚类结果的熵差来度量聚类差异,以评估对初始化和标准化的敏感性。

实验结果

研究问题

  • RQ1z-score标准化的平方欧几里得距离是否在数学上等价于基于皮尔逊相关系数的某种距离?
  • RQ2在z-score标准化的时间序列数据上应用标准k-Means,其聚类结果是否与经过修改以正确标准化聚类中心原型的k-Means在皮尔逊相关系数下的结果等价?
  • RQ3在聚类稳定性和结果保真度方面,标准k-Means在标准化数据上的表现与理论上正确的版本相比如何?
  • RQ4通过z-score标准化进行数据预处理,能在多大程度上使标准欧几里得算法在无需算法修改的情况下模拟基于皮尔逊相关系数的聚类?
  • RQ5与不同随机初始化带来的自然不稳定性相比,聚类中心原型的标准化对k-Means聚类结果的影响有多大?

主要发现

  • z-score标准化的平方欧几里得距离在常数因子下与皮尔逊相关系数的倒数数学等价,为将标准化作为相关系数距离的代理提供了理论基础。
  • 在z-score标准化的时间序列数据上应用标准k-Means所产生的聚类,与经过修改以标准化聚类中心原型的k-Means几乎无法区分,表明标准方法在实践中已足够。
  • 在所有测试数据集中,标准k-Means与修改版k-Means之间的最大熵差(E_pear)均小于或等于因随机初始化导致的最小熵差(E_random),表明原型标准化的影响小于初始化带来的影响。
  • 对于稳定数据集(如Gun Point和Wafer),两种k-Means版本均产生完全相同的聚类结果(E_pear = 0),即使标准k-Means本身不稳定(E_random > 0)。
  • 在高不稳定性情况下(如Face (All)和OSU Leaf),两种k-Means变体之间的差异仍远小于不同初始化带来的变化。
  • 结果支持结论:仅对输入数据进行z-score标准化,即可有效在标准算法(如k-Means、k-NN和层次聚类)中使用皮尔逊相关系数作为时间序列聚类的相似性度量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。