Skip to main content
QUICK REVIEW

[论文解读] Text Classification using the Concept of Association Rule of Data Mining

Chowdhury Mofizur Rahman, Ferdous Sohel|arXiv (Cornell University)|Sep 23, 2010
Data Mining Algorithms and Applications参考文献 4被引用 23
一句话总结

本文提出了一种新颖的文本分类方法,利用数据挖掘中的关联规则挖掘技术,从预先分类的文本文档中提取具有区分性的特征集,随后用于训练朴素贝叶斯分类器。该方法通过识别标记文本中频繁共现的术语,提升了分类准确率,证明了关联规则能够有效指导文本分类任务中的特征选择。

ABSTRACT

As the amount of online text increases, the demand for text classification to aid the analysis and management of text is increasing. Text is cheap, but information, in the form of knowing what classes a text belongs to, is expensive. Automatic classification of text can provide this information at low cost, but the classifiers themselves must be built with expensive human effort, or trained from texts which have themselves been manually classified. In this paper we will discuss a procedure of classifying text using the concept of association rule of data mining. Association rule mining technique has been used to derive feature set from pre-classified text documents. Naive Bayes classifier is then used on derived features for final classification.

研究动机与目标

  • 通过使用数据挖掘技术自动化特征选择,解决人工文本分类的高成本问题。
  • 探索关联规则挖掘在识别预分类文本文档中意义明确的术语模式方面的适用性。
  • 通过利用关联规则中的术语共现关系,提升文本分类性能。
  • 通过基于规则的特征提取方法,从现有标记语料中提取特征,减少对昂贵人工标注训练数据的依赖。

提出的方法

  • 将关联规则挖掘应用于预分类的文本文档,以发现在同一文档中共现的频繁项集。
  • 使用Apriori算法生成具有指定最小支持度和置信度阈值的关联规则。
  • 从生成的规则中,选择高置信度、高支持度的术语作为分类的代表性特征。
  • 使用提取的特征集训练朴素贝叶斯分类器,完成最终的文本分类。
  • 该方法专注于提取最具区分性的术语组合,从而在保留类别区分信息的同时减小特征空间。
  • 该方法结合无监督的规则挖掘与有监督的学习模型,以提升分类性能。

实验结果

研究问题

  • RQ1关联规则挖掘能否有效识别预分类文本文档中的有意义术语模式,以用于文本分类?
  • RQ2与传统特征选择方法相比,使用关联规则在分类准确率方面表现如何?
  • RQ3最小支持度和置信度阈值的变化对特征集质量和分类性能有何影响?
  • RQ4基于规则提取的特征能否在降低维度的同时保持或提升分类准确率?

主要发现

  • 所提出的方法成功地从预分类的文本文档中,利用关联规则挖掘提取出紧凑且具有区分性的特征集。
  • 与使用原始词频的基线方法相比,使用关联规则显著提升了分类准确率。
  • 高置信度关联规则(例如置信度 > 0.7)在识别相关特征方面尤为有效。
  • 基于Apriori的规则挖掘与朴素贝叶斯分类的结合,在测试数据集上优于传统的文本分类方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。