Skip to main content
QUICK REVIEW

[論文レビュー] Identifying the number of clusters for K-Means: A hypersphere density based approach

Sukavanan Nanjundan, Shreeviknesh Sankaran|arXiv (Cornell University)|Dec 2, 2019
Data Mining and Machine Learning Applications参考文献 4被引用数 41
ひとこと要約

この論文は、球面密度に基づく手法を用いてK-Meansのクラスタ数を決定する方法を提案し、クラスタ数を変化させたときのクラスタセントロイド密度を評価し、エルボーポイントを選択する。

ABSTRACT

Application of K-Means algorithm is restricted by the fact that the number of clusters should be known beforehand. Previously suggested methods to solve this problem are either ad hoc or require parametric assumptions and complicated calculations. The proposed method aims to solve this conundrum by considering cluster hypersphere density as the factor to determine the number of clusters in the given dataset. The density is calculated by assuming a hypersphere around the cluster centroid for n-different number of clusters. The calculated values are plotted against their corresponding number of clusters and then the optimum number of clusters is obtained after assaying the elbow region of the graph. The method is simple, easy to comprehend, and provides robust and reliable results.

研究の動機と目的

  • K-Meansのクラスタ数がしばしば未知で決定が難しい挑戦を動機づける。
  • クラスタセントロイドの周りに球面を用いた、単純で解釈可能な密度ベースの基準を提案し、クラスタ数を推定する。
  • 重いパラメトリック仮定や複雑な計算を避ける頑健なアプローチを提供する。

提案手法

  • 与えられたデータセットについて、異なるクラスタ数(nを1から選択した最大値まで)に対して各クラスタセントロイドの周りに球面を構築する。
  • 球面の密度値を、セントロイドを中心とする各球の密度として推定し、クラスタのまとまり具合を反映させる。
  • 計算された密度を対応するクラスタ数に対してプロットし、最適なクラスタ数を選択するエルボ領域を識別する。

実験結果

リサーチクエスチョン

  • RQ1セントロイド周りの球面密度は、K-Meansに適したクラスタ数を効果的に示すことができるか?
  • RQ2セントロイド密度プロットのエルボーは、データセット間で最適なクラスタリング解に信頼性をもって対応するか?
  • RQ3この方法は実装が簡単で、強いパラメトリック仮定なしに頑健であり得るか?

主な発見

  • 提案された球面密度アプローチは、クラスタ数を識別するための解釈可能な基準を生み出す。
  • 密度対クラスタ数プロットのエルボー領域は、最適なクラスタ数の指標として機能する。
  • 方法は理解しやすく、頑健で信頼性のある結果を提供できると説明されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。