Skip to main content
QUICK REVIEW

[论文解读] Web Document Clustering and Ranking using Tf-Idf based Apriori Approach.

Rajendra Kumar Roul, Omanwar Rohit Devanand|arXiv (Cornell University)|Jan 3, 2014
Advanced Clustering Algorithms Research参考文献 4被引用 5
一句话总结

本文提出一种基于Tf-Idf的Apriori方法,用于聚类和排序网络文档,以提高检索效率。通过结合基于Apriori的聚类与Tf-Idf加权的词频及基于相似度的排序,该方法将相关文档分组并排序,在基准数据集上实现了78%的F值。

ABSTRACT

The dynamic web has increased exponentially over the past few years with more than thousands of documents related to a subject available to the user now. Most of the web documents are unstructured and not in an organized manner and hence user facing more difficult to find relevant documents. A more useful and efficient mechanism is combining clustering with ranking, where clustering can group the similar documents in one place and ranking can be applied to each cluster for viewing the top documents at the beginning.. Besides the particular clustering algorithm, the different term weighting functions applied to the selected features to represent web document is a main aspect in clustering task. Keeping this approach in mind, here we proposed a new mechanism called Tf-Idf based Apriori for clustering the web documents. We then rank the documents in each cluster using Tf-Idf and similarity factor of documents based on the user query. This approach will helps the user to get all his relevant documents in one place and can restrict his search to some top documents of his choice. For experimental purpose, we have taken the Classic3 and Classic4 datasets of Cornell University having more than 10,000 documents and use gensim toolkit to carry out our work. We have compared our approach with traditional apriori algorithm and found that our approach is giving better results for higher minimum support. Our ranking mechanism is also giving a good F-measure of 78%. General Terms Information Retrieval; Search Engine; Web Documents

研究动机与目标

  • 解决从快速增长且非结构化的网络中检索相关文档的挑战。
  • 通过将文档聚类与查询特定排序相结合,提升搜索效率。
  • 开发一种混合方法,结合词频加权(Tf-Idf)与关联规则挖掘(Apriori),以实现更优的聚类效果。
  • 通过在连贯的聚类中展示最相关的文档,提升用户体验。
  • 与传统Apriori方法进行对比,并使用F值衡量有效性。

提出的方法

  • 对网络文档应用Tf-Idf加权,以提取并表示关键特征,提升聚类效果。
  • 使用Apriori算法在文档-词项矩阵中发现频繁项集,从而形成相似文档的聚类。
  • 在每个聚类内,引入文档与用户查询之间的相似度因子,以指导排序。
  • 根据Tf-Idf得分与查询的相似度对每个聚类中的文档进行排序,优先呈现最佳结果。
  • 使用Gensim工具包在康奈尔大学提供的Classic3和Classic4数据集上实现该方法。
  • 通过调整最小支持度阈值,与传统Apriori方法进行性能对比。

实验结果

研究问题

  • RQ1基于Tf-Idf增强的Apriori方法是否能相较于传统Apriori提升网络文档聚类效果?
  • RQ2在不同最小支持度阈值下,所提出的聚类方法表现如何?
  • RQ3将基于查询的相似度整合后,对聚类内文档排序的提升程度如何?
  • RQ4所提出的排序机制在标准基准数据集上的F值是多少?
  • RQ5该混合聚类与排序方法是否能减少用户查找相关文档的努力?

主要发现

  • 所提出的基于Tf-Idf的Apriori方法在聚类性能上优于传统Apriori,尤其在较高最小支持度阈值下表现更优。
  • 排序机制实现了78%的高F值,表明在检索相关文档方面具有优异的精确率与召回率。
  • 采用Tf-Idf加权的聚类方法提升了文档组的内聚性,使聚类结果更具语义意义。
  • 将查询特定相似度整合后,通过优先呈现与用户查询最相关的文档,显著提升了排序准确性。
  • 该方法通过将相关文档分组并优先展示最佳候选结果,有效缩小了搜索空间。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。