Skip to main content
QUICK REVIEW

[论文解读] Association Rule Pruning based on Interestingness Measures with Clustering

S. Kannan, R. Bhaskaran|ArXiv.org|Dec 9, 2009
Data Mining Algorithms and Applications参考文献 16被引用 44
一句话总结

本文提出了一种新颖的关联规则剪枝方法,通过结合聚类与有趣性度量,以减少冗余规则并提升规则质量。通过基于支持度、置信度、提升度和利用度等有趣性评分对规则进行聚类,该方法识别并仅保留最具代表性与信息量的规则,显著减少了规则集规模,同时从大规模事务数据中保留了有意义的模式。

ABSTRACT

Association rule mining plays vital part in knowledge mining. The difficult task is discovering knowledge or useful rules from the large number of rules generated for reduced support. For pruning or grouping rules, several techniques are used such as rule structure cover methods, informative cover methods, rule clustering, etc. Another way of selecting association rules is based on interestingness measures such as support, confidence, correlation, and so on. In this paper, we study how rule clusters of the pattern Xi - Y are distributed over different interestingness measures.

研究动机与目标

  • 为解决关联规则挖掘中的规则爆炸问题,即生成大量冗余或无信息量的规则。
  • 通过聚焦于最具有趣性和代表性的规则,提升提取规则的质量。
  • 通过剪枝不相关规则,减少计算开销并增强可解释性。
  • 探索规则聚类在多种有趣性度量(支持度、置信度、提升度、利用度)上的分布情况。
  • 提出一种结合聚类与基于有趣性剪枝的混合方法,以实现有效的规则选择。

提出的方法

  • 该方法首先为每条关联规则计算多种有趣性度量——支持度、置信度、提升度和利用度。
  • 然后使用基于距离的聚类算法对规则进行聚类,其中相似性由有趣性评分向量决定。
  • 在每个聚类中,选择平均有趣性评分最高的规则作为代表性规则。
  • 保留所有聚类中的代表性规则,其余规则则被剪枝,从而减少冗余。
  • 该方法利用规则在有趣性度量上的分布,识别出密集且有意义的聚类。
  • 最终的规则集仅包含最具信息量且多样化的规则,最大限度减少重叠并最大化洞察力。

实验结果

研究问题

  • RQ1不同有趣性度量(支持度、置信度、提升度、利用度)在规则聚类中如何分布?
  • RQ2基于有趣性评分对规则进行聚类,能否提升最终规则集的质量?
  • RQ3剪枝非代表性规则对规则集规模和信息含量有何影响?
  • RQ4与传统剪枝技术相比,该方法在规则多样性与实用性方面表现如何?
  • RQ5规则在有趣性空间中的分布能否揭示大规模事务数据中的有意义模式?

主要发现

  • 所提出的方法通过剪枝冗余和信息量较少的规则,显著减少了关联规则的数量。
  • 从聚类中选出的代表性规则保持了较高的支持度、置信度和提升度,表明其模式质量优异。
  • 基于多种有趣性度量的聚类能有效将相似规则分组,实现高效剪枝,同时保留关键洞察。
  • 规则在有趣性度量上的分布揭示出密集聚类,表明存在与有意义模式一致的自然分组。
  • 与未经剪枝的规则集相比,最终的规则集更具可解释性且计算效率更高。
  • 该方法通过聚焦于高兴趣度聚类中的代表性规则,显著提升了规则质量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。