Skip to main content
QUICK REVIEW

[论文解读] A More Precise Elbow Method for Optimum K-means Clustering

Indra Herdiana, Maryam Kamal|ArXiv.org|Feb 2, 2025
Advanced Clustering Algorithms Research被引用 6
一句话总结

本文通过引入一个以目标角度为基础的准则来识别肘点,使用 SSE vs. k 的斜率以及一个衍生灵感的公式来计算临界角,从而为在 K-means 目标函数中选择 K 的肘部方法提供方法。

ABSTRACT

K-means clustering is an unsupervised clustering method that requires an initial decision of number of clusters. One method to determine the number of clusters is the elbow method, a heuristic method that relies on visual representation. The method uses the number based on the elbow point, the point closest to 90 degrees that indicates the most optimum number of clusters. This research improves the elbow method such that it becomes an objective method. We use the analytical geometric formula to calculate an angle between lines and real analysis principle of derivative to simplify the elbow point determination. We also consider every possibility of the elbow method graph behaviour such that the algorithm is universally applicable. The result is that the elbow point can be measured precisely with a simple algorithm that does not involve complex functions or calculations. This improved method gives an alternative of more reliable cluster determination method that contributes to more optimum k-means clustering.

研究动机与目标

  • 使用客观几何准则,而非视觉判断,量化 SSE(k) 绘图中的肘点.
  • 开发一个公式,用于计算相邻 SSE 线段之间的夹角,以识别肘点。
  • 确保该方法考虑到不同图形行为,并在各种数据集中具有普遍适用性。

提出的方法

  • 将 SSE(k) 绘图建模为由连续 (k, SSE(k)) 点之间的线段组成的分段线性函数。
  • 使用连续 SSE 线段之间的夹角来定义一个肘候选度量 tan(ψ_k),并提供一个封闭形式公式。
  • 在有效的 k 取值中(排除边界情况并考虑线坡度行为),选择 tan(ψ_k) 最小的点作为肘点。
  • 提供一个通用实现,使用标准算术运算(不使用反三角函数)以提高效率和可移植性。
  • 提供一个替代方法/定理(定理 2.5),通过添加一个条件来忽略某些拐角,以处理斜率递减假设失效的情况。
  • 包括伪代码和 Python 示例,说明 SSE、tan(ψ_k) 的计算以及最佳 k 的选择。

实验结果

研究问题

  • RQ1如何在不依赖主观视觉判断的情况下识别 SSE(k) 的肘点?
  • RQ2是否可以使用基于相邻 SSE 线段夹角的纯几何准则来确定肘点?
  • RQ3所提出的基于角度的方法如何处理失真或非标准的 SSE 绘图?
  • RQ4忽略某些拐角对肘点检测的鲁棒性有何影响?
  • RQ5该方法是否能够在典型数据集和编程语言中高效实现?

主要发现

  • 肘点可以确定为 tan(ψ_k) 最小的 SSE(k) 点。
  • 角度 ψ_k 通过一个封闭形式表达式计算,该表达式涉及 SSE(k−1)、SSE(k) 和 SSE(k+1)。
  • 该方法通过引入边界条件和对朝下拐角的可选处理来考虑向上拐角和失真。
  • 另一种定理通过加入额外约束,将本方法扩展到二阶斜率条件不成立的情况。
  • 一个实用的 Python 实现演示了如何使用标准算术计算 SSE、tan(ψ_k) 和最优的 k。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。