QUICK REVIEW

[论文解读] Normalization based K means Clustering Algorithm

Deepali Virmani, Shweta Taneja|arXiv (Cornell University)|Mar 3, 2015

Data Mining Algorithms and Applications参考文献 10被引用 23

一句话总结

本文提出了一种基于归一化的K-means（N-K-means）聚类算法，通过在聚类前应用数据归一化并使用加权值计算初始质心，改进了传统K-means算法。该方法降低了计算复杂度，并提升了聚类性能，实验结果验证了其在准确性和效率方面优于标准K-means。

ABSTRACT

K-means is an effective clustering technique used to separate similar data into groups based on initial centroids of clusters. In this paper, Normalization based K-means clustering algorithm(N-K means) is proposed. Proposed N-K means clustering algorithm applies normalization prior to clustering on the available data as well as the proposed approach calculates initial centroids based on weights. Experimental results prove the betterment of proposed N-K means clustering algorithm over existing K-means clustering algorithm in terms of complexity and overall performance.

研究动机与目标

解决标准K-means对特征尺度和初始质心选择的敏感性问题。
通过引入数据归一化和加权质心初始化来提升聚类性能。
降低K-means聚类过程中的计算复杂度。
通过预处理和优化初始化，提升聚类结果的收敛性和准确性。

提出的方法

在聚类前对输入数据进行归一化处理，以缓解特征间尺度差异的影响。
基于数据分布和特征重要性，采用加权方法计算初始聚类质心。
修改标准K-means算法，在迭代分配和更新步骤中引入归一化数据和加权质心。
使用归一化特征计算聚类成员关系的距离分配规则。
通过迭代更新使用归一化数据点的质心，直至收敛。
将归一化和加权初始化集成到核心K-means框架中，以提升稳定性和性能。

实验结果

研究问题

RQ1数据归一化如何影响K-means算法的性能和收敛性？
RQ2与随机或均匀初始化相比，加权质心初始化能否提升聚类准确性？
RQ3将归一化与加权初始化相结合是否能降低K-means聚类中的计算复杂度？
RQ4与标准K-means相比，所提出的N-K-means算法在聚类质量和效率方面表现如何？

主要发现

所提出的N-K-means算法由于改进的初始化和数据归一化，聚类性能优于标准K-means。
归一化降低了特征尺度差异的影响，从而带来更稳定和准确的聚类分配。
加权质心计算提升了收敛速度和最终聚类质量。
实验结果表明计算复杂度降低，整体效率得到提升。
该算法在测试数据集上表现出一致的聚类准确性提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。