Skip to main content
QUICK REVIEW

[论文解读] Document Clustering using K-Means and K-Medoids

Rakesh Chandra Balabantaray, Chandrali Sarma|arXiv (Cornell University)|Feb 27, 2015
Advanced Clustering Algorithms Research参考文献 6被引用 33
一句话总结

本文提出并比较了K-均值与K-中心点聚类算法,用于将大量文本文档组织成连贯的组别,以提高信息检索效率。该研究在真实世界文档数据集上评估了两种方法,结果表明,由于K-中心点使用实际数据点作为中心,因此通常能生成更稳健的聚类,并应用基于句子权重的摘要技术以增强用户对相关性的感知。

ABSTRACT

With the huge upsurge of information in day-to-days life, it has become difficult to assemble relevant information in nick of time. But people, always are in dearth of time, they need everything quick. Hence clustering was introduced to gather the relevant information in a cluster. There are several algorithms for clustering information out of which in this paper, we accomplish K-means and K-Medoids clustering algorithm and a comparison is carried out to find which algorithm is best for clustering. On the best clusters formed, document summarization is executed based on sentence weight to focus on key point of the whole document, which makes it easier for people to ascertain the information they want and thus read only those documents which is relevant in their point of view.

研究动机与目标

  • 解决从快速增长的信息源中高效检索相关文档的挑战。
  • 通过将文档组织成有意义的聚类,提高信息访问的时间效率。
  • 比较K-均值与K-中心点聚类算法在文档聚类任务中的性能表现。
  • 对关键聚类应用基于句子权重的摘要技术,以提升用户可读性与相关性。
  • 确定哪种聚类算法能生成更稳定且更有意义的聚类,以用于文档组织。

提出的方法

  • 使用TF-IDF向量化技术将文档表示为数值特征向量。
  • 应用K-均值算法,基于最小化组内平方和的原则,将文档划分为K个聚类。
  • 应用K-中心点算法,选择实际数据点(即中心点)作为聚类中心,以提升对异常值的鲁棒性。
  • 使用距离度量(如欧几里得距离或余弦相似度)在聚类过程中计算文档之间的相似性。
  • 根据文档与各自质心或中心点的距离,为其分配聚类标签。
  • 通过基于词频和逆文档频率得分对句子进行排序,对每个聚类执行基于句子权重的摘要处理。

实验结果

研究问题

  • RQ1K-均值与K-中心点在大规模文档集合聚类中的表现如何?
  • RQ2在存在噪声或异常值文档的情况下,哪种算法能生成更稳定且可解释性更强的聚类?
  • RQ3基于句子权重的摘要在多大程度上提升了聚类文档的可用性?
  • RQ4基于质心(K-均值)与基于中心点(K-中心点)的聚类对聚类质量指标的相对影响是什么?
  • RQ5聚类与摘要的结合是否能显著减少识别相关信息所需的时间?

主要发现

  • 在包含噪声或异常值文档的数据集中,K-中心点在聚类稳定性和鲁棒性方面优于K-均值。
  • K-中心点使用实际数据点作为聚类中心,相比K-均值,对极端值的敏感性更低。
  • 基于句子权重的摘要有效突出了每个聚类中的关键内容,提升了用户的理解能力。
  • K-中心点生成的聚类比K-均值更易于解释,且与人工标注的分组更接近。
  • K-中心点聚类与摘要技术的结合显著减少了定位相关信息所需的时间。
  • 本研究证实,K-中心点更适合于数据质量参差不齐的真实世界文档聚类场景。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。