Skip to main content
QUICK REVIEW

[論文レビュー] On Clustering Time Series Using Euclidean Distance and Pearson Correlation

Michael R. Berthold, Frank Höppner|arXiv (Cornell University)|Jan 10, 2016
Time Series Analysis and Forecasting被引用数 48
ひとこと要約

この論文は、zスコアで正規化された二乗ユークリッド距離が定数倍の違いを除き、ピアソン相関係数の逆数と数学的に同等であることを確立しており、k-均値法などの標準的なユークリッドベースのクラスタリングアルゴリズムが、単純なデータ前処理によってピアソン相関に基づくクラスタリングを模倣できることを示している。実験結果から、クラスタープロトタイプの正規化をアルゴリズムに組み込まなくても、正規化済みデータに対する標準的なk-均値法が理論的に正しいバージョンとほぼ同一の結果を生み出すことが判明しており、zスコア正規化が時系列クラスタリングにおけるピアソン相関の実用的で効果的な代替手段であることを裏付けている。

ABSTRACT

For time series comparisons, it has often been observed that z-score normalized Euclidean distances far outperform the unnormalized variant. In this paper we show that a z-score normalized, squared Euclidean Distance is, in fact, equal to a distance based on Pearson Correlation. This has profound impact on many distance-based classification or clustering methods. In addition to this theoretically sound result we also show that the often used k-Means algorithm formally needs a mod ification to keep the interpretation as Pearson correlation strictly valid. Experimental results demonstrate that in many cases the standard k-Means algorithm generally produces the same results.

研究の動機と目的

  • 正規化されたユークリッド距離とピアソン相関の間の数学的関係が、時系列類似度測定においてどのように関連しているかを明確にすること。
  • クラスタリングアルゴリズムにおいてピアソン相関の代わりに正規化されたユークリッド距離を使用する理論的・実用的意味を検討すること。
  • 標準k-均値法を正規化済みデータに適用した場合、ピアソン相関の意味を正確に反映するようにクラスタープロトタイプを正規化する修正版k-均値法と同等のクラスタリングが得られるかどうかを評価すること。
  • zスコア正規化による前処理によって、コード変更なしに標準的なアルゴリズムがピアソン相関を類似度指標として効果的に使用できることを示すこと。

提案手法

  • zスコア正規化された二乗ユークリッド距離とピアソン相関係数の逆数との数学的同等性を導出すること。
  • 同等性が定数倍の違いを除いて成り立つことを示し、両指標が時系列ペairの順序付けを同じにするということを示すこと。
  • クラスタープロトタイプを正規化することでピアソン相関の意味論を厳密に維持する、修正版k-均値法を提案すること。
  • エントロピーに基づくクラスタリング比較を用いて、正規化済みデータに対する標準k-均値法と、プロトタイプ正規化を施した修正版k-均値法が生成するクラスタリングの類似度を評価すること。
  • 複数の時系列データセット(例:Gun Point, Synthetic Control, ECG)を用いて、異なる手法におけるクラスタリングの安定性と性能を実証的に比較すること。
  • 異なる実行回数やアルゴリズムバリアントからのクラスタリング間のエントロピー差を測定することで、初期化の感度と正規化の影響を評価すること。

実験結果

リサーチクエスチョン

  • RQ1zスコア正規化された二乗ユークリッド距離は、ピアソン相関係数に基づく距離と数学的に同等であるか?
  • RQ2zスコア正規化済み時系列データに標準k-均値法を適用した場合、ピアソン相関の意味を正しく反映するようにクラスタープロトタイプを正規化するk-均値法の変種と同等のクラスタリングが得られるか?
  • RQ3正規化済みデータに対する標準k-均値法の性能は、理論的に正しいバージョン(プロトタイプ正規化あり)と比較して、クラスタリングの安定性と結果の正確性においてどの程度同等か?
  • RQ4zスコア正規化によるデータ前処理によって、アルゴリズムの変更なしに標準的なユークリッドベースのアルゴリズムがピアソン相関ベースのクラスタリングをどれほど効果的に模倣できるか?
  • RQ5プロトタイプ正規化の影響は、異なるランダム初期化によって生じる自然な不安定性と比較して、どの程度顕著か?

主な発見

  • zスコア正規化された二乗ユークリッド距離は、定数倍の違いを除き、ピアソン相関係数の逆数と数学的に同等であり、正規化を相関ベースの距離の代理として使用する理論的根拠を提供している。
  • 標準k-均値法をzスコア正規化済み時系列データに適用した場合、クラスタープロトタイプを正規化する修正版k-均値法が生成するクラスタリングとほぼ区別できない結果が得られ、標準的手法が実用的に十分であることを示している。
  • 全テストデータセットにおいて、標準k-均値法と修正版k-均値法の間の最大エントロピー差(E_pear)は、ランダム初期化による最小エントロピー差(E_random)以下であった。これは、プロトタイプ正規化の影響が初期化の影響よりも小さいことを示している。
  • Gun Point や Wafer のような安定したデータセットでは、両バージョンのk-均値法が同一のクラスタリングを生成した(E_pear = 0)。これは、標準k-均値法が不安定であっても(E_random > 0)成立する。
  • Face (All) や OSU Leaf のような高頻度の不安定性を示すケースにおいても、2つのk-均値法バージョン間の差は、初期化の違いによって生じる変動に比べて小さく保たれていた。
  • これらの結果から、zスコア正規化による入力データの前処理のみで、k-均値法、k-NN、階層的クラスタリングなどの標準アルゴリズムが、ピアソン相関を類似度指標として効果的に使用できることを支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。