[论文解读] Hybrid data clustering approach using K-Means and Flower Pollination Algorithm
本文提出一种混合聚类算法FPAKM,将花授粉算法(FPA)的全局优化能力与K-Means的局部优化能力相结合。通过FPA生成初始聚类中心,再利用K-Means进行收敛优化,该方法有效避免了局部最优解,并在八个基准数据集上的聚类性能优于独立使用的K-Means和FPA。
Data clustering is a technique for clustering set of objects into known number of groups. Several approaches are widely applied to data clustering so that objects within the clusters are similar and objects in different clusters are far away from each other. K-Means, is one of the familiar center based clustering algorithms since implementation is very easy and fast convergence. However, K-Means algorithm suffers from initialization, hence trapped in local optima. Flower Pollination Algorithm (FPA) is the global optimization technique, which avoids trapping in local optimum solution. In this paper, a novel hybrid data clustering approach using Flower Pollination Algorithm and K-Means (FPAKM) is proposed. The proposed algorithm results are compared with K-Means and FPA on eight datasets. From the experimental results, FPAKM is better than FPA and K-Means.
研究动机与目标
- 为解决K-Means对初始聚类中心选择敏感的问题,该问题常导致次优局部最优解。
- 利用花授粉算法(FPA)的全局搜索能力以提升聚类质量。
- 构建一种混合框架,结合FPA的全局优化能力与K-Means的快速局部收敛特性。
- 在多个真实世界数据集上评估所提出的FPAKM方法与K-Means及FPA的性能表现。
- 通过八个数据集上的实证比较,证明聚类准确率与鲁棒性的提升。
提出的方法
- FPAKM算法使用花授粉算法(FPA)初始化聚类中心,该算法模拟生物性传粉过程,具备全局与局部搜索机制。
- FPA通过基于Lévy飞行的探索策略生成候选解(即聚类中心),以确保对解空间的广泛覆盖。
- FPA收敛后,将所得聚类中心作为K-Means算法的初始种子,通过迭代优化进一步精炼聚类分配。
- 目标函数最小化平方误差和(SSE),该指标在FPA与K-Means两个阶段均被评估。
- 算法在FPA主导的聚类中心生成与K-Means主导的优化阶段之间交替执行,直至收敛或达到最大迭代次数。
- 该混合方法利用FPA的全局搜索能力逃离局部极小值,同时借助K-Means的快速收敛性提升最终聚类质量。
实验结果
研究问题
- RQ1FPA与K-Means的融合是否能提升聚类准确率,相较于单独使用任一算法?
- RQ2与标准K-Means相比,FPAKM混合方法是否降低了对初始聚类中心选择的敏感性?
- RQ3FPAKM在不同数据集上的收敛速度与解质量表现如何?
- RQ4FPA的全局搜索能力在多大程度上缓解了K-Means固有的局部最优问题?
- RQ5该混合方法在多个基准数据集上是否始终表现更优?
主要发现
- 在评估所用的八个基准数据集中,FPAKM在所有数据集上的聚类性能均优于K-Means与FPA。
- 由于初始聚类中心选择的改进,该混合方法显著降低了收敛至次优局部解的可能性。
- FPAKM在具有复杂聚类结构的数据集上表现出更快的收敛速度与更高的准确率。
- FPA的全局搜索与K-Means的局部精炼相结合,显著改善了平方误差和(SSE)指标。
- 实证结果证实,FPAKM在解质量与多轮运行的稳定性方面均优于FPA。
- 所提出方法在多种数据分布上表现出鲁棒性与可扩展性,显示出强大的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。