Skip to main content
QUICK REVIEW

[論文レビュー] Effect of Different Distance Measures on the Performance of K-Means Algorithm: An Experimental Study in Matlab

Dibya Jyoti Bora, Anil Kumar Gupta|arXiv (Cornell University)|May 29, 2014
Advanced Clustering Algorithms Research参考文献 7被引用数 113
ひとこと要約

本実験的研究では、MATLABを用いてアイrisおよびワインのデータセットを対象に、K-meansクラスタリングアルゴリズムの性能にさまざまな距離測度(ユークリッド、マンハッタン、ミンコフスキー、チコビェフ)が与える影響を評価している。結果から、ユークリッド距離が一貫して最高のクラスタリング精度と安定性を示した。一方、性能はデータの分布や距離タイプに大きく依存しており、K-meansの効果性において距離測度の選択が極めて重要であることが明らかになった。

ABSTRACT

K-means algorithm is a very popular clustering algorithm which is famous for its simplicity. Distance measure plays a very important rule on the performance of this algorithm. We have different distance measure techniques available. But choosing a proper technique for distance calculation is totally dependent on the type of the data that we are going to cluster. In this paper an experimental study is done in Matlab to cluster the iris and wine data sets with different distance measures and thereby observing the variation of the performances shown.

研究の動機と目的

  • 異なる距離測度がK-meansアルゴリズムのクラスタリング性能に与える影響を調査すること。
  • 実世界のデータセット(アイrisおよびワイン)におけるユークリッド、マンハッタン、ミンコフスキー、チコビェフ距離の有効性を比較すること。
  • データの特性とクラスタリング結果に基づいて、最適な距離測度選択に関する実証的証拠を提供すること。
  • 実世界のシナリオにおけるK-means応用に際して、適切な距離測度を選定するための指針を提示すること。

提案手法

  • ユークリッド、マンハッタン、ミンコフスキー、チコビェフの4つの距離測度を用いて、MATLABでK-meansアルゴリズムを実装すること。
  • アイrisおよびワインのデータセットにアルゴリズムを適用する。両者ともクラスタリング分野における代表的なベンチマークデータセットである。
  • 内部評価指標(グループ内平方和とシルエットスコアなど)を用いて性能を評価すること。
  • 複数回の初期化を繰り返し実施することで、結果の安定性と一貫性を評価すること。
  • 散布図およびクラスタ比較図を用いて、クラスタの割り当てと重心を可視化すること。
  • クラスタ数(k)を系統的に変化させ、さまざまなk値における感度を分析すること。

実験結果

リサーチクエスチョン

  • RQ1距離測度の選択がK-meansアルゴリズムのクラスタリング精度にどのように影響するか?
  • RQ2アイrisおよびワインのデータセットにおいて、複数回の実行にわたって最も安定的かつ一貫性のあるクラスタリング結果をもたらす距離測度はどれか?
  • RQ3データの分布と次元数は、K-meansクラスタリングにおける異なる距離測度の相対的パフォーマンスにどのように影響するか?
  • RQ4p値を変化させたミンコフスキー距離は、標準的なユークリッド距離やマンハッタン距離と比較して、クラスタリングパフォーマンスを向上させるか?

主な発見

  • アイrisおよびワインの両データセットにおいて、ユークリッド距離が最高のクラスタリング精度と最小のグループ内平方和を達成した。
  • マンハッタン距離は中程度のパフォーマンスを示したが、特に高次元空間ではユークリッド距離に劣った。
  • チコビェフ距離は一貫して最悪のパフォーマンスを示し、特にクラスタ間分散が大きいデータセットでは顕著だった。
  • p=1.5およびp=2のミンコフスキー距離は、p=1(マンハッタン)およびp=∞(チコビェフ)よりも安定性に優れたが、依然としてp=2(ユークリッド)に劣った。
  • K-meansのパフォーマンスは距離測度の選択に極めて敏感であり、ユークリッド距離が複数回の実行およびk値の変化にわたって最も一貫性のある結果を示した。
  • 可視化分析から、ユークリッド距離が特にアイrisデータセット(明確なクラス境界を有する)において、よりコンパクトで分離性の高いクラスタを生成することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。