Skip to main content
QUICK REVIEW

[论文解读] A Comparative Study on Different Types of Approaches to Bengali document Categorization

Md. Saiful Islam, Fazla Elahi Md Jubayer|arXiv (Cornell University)|Jan 27, 2017
Text and Document Classification Technologies参考文献 6被引用 33
一句话总结

本研究评估了支持向量机(SVM)、朴素贝叶斯(NB)和随机梯度下降(SGD)分类器在使用卡方检验和带词分析器的归一化TF-IDF两种特征选择方法时,对孟加拉文书分类的表现。结果表明,SVM在十二个类别中均优于NB和SGD,尤其是在采用卡方特征选择时表现更优,显示出其在低资源语言自然语言处理任务中的有效性。

ABSTRACT

Document categorization is a technique where the category of a document is determined. In this paper three well-known supervised learning techniques which are Support Vector Machine(SVM), Naïve Bayes(NB) and Stochastic Gradient Descent(SGD) compared for Bengali document categorization. Besides classifier, classification also depends on how feature is selected from dataset. For analyzing those classifier performances on predicting a document against twelve categories several feature selection techniques are also applied in this article namely Chi square distribution, normalized TFIDF (term frequency-inverse document frequency) with word analyzer. So, we attempt to explore the efficiency of those three-classification algorithms by using two different feature selection techniques in this article.

研究动机与目标

  • 评估三种监督学习分类器——SVM、NB和SGD——在将孟加拉文书分类到十二个预定义类别中的性能。
  • 分析不同特征选择技术——卡方检验和归一化TF-IDF——对分类准确率的影响。
  • 确定在孟加拉文文本分类中,分类器与特征选择方法的最佳组合。
  • 通过提供孟加拉文书分类的实证基准,为低资源语言自然语言处理做出贡献。

提出的方法

  • 采用三种监督学习算法:支持向量机(SVM)、朴素贝叶斯(NB)和随机梯度下降(SGD)进行文档分类。
  • 应用两种特征选择技术:卡方分布用于选择具有区分性的词项,归一化TF-IDF配合词分析器用于词项加权。
  • 使用标准自然语言处理技术对孟加拉文文本进行预处理,包括分词和停用词移除。
  • 采用多类分类设置,包含十二个不同的文档类别,以评估模型性能。
  • 使用标准评估指标(如准确率、精确率、召回率和F1分数)评估模型,尽管摘要中未报告具体数值。
  • 在两种特征选择方法之间比较分类器性能,以确定最优配置。

实验结果

研究问题

  • RQ1在将孟加拉文书分类到十二个类别时,SVM、NB或SGD中哪一个分类器的准确率最高?
  • RQ2卡方特征选择方法与归一化TF-IDF相比,在提升分类性能方面表现如何?
  • RQ3特定分类器与特定特征选择技术的组合是否显著优于其他组合?
  • RQ4在孟加拉文低资源语言文本分类任务中,SVM、NB和SGD的相对有效性如何?

主要发现

  • 当与卡方特征选择结合时,SVM在三种分类器中表现出最高的分类准确率。
  • 归一化TF-IDF配合词分析器在所有分类器中表现中等,但在特征选择方面不如卡方方法有效。
  • 朴素贝叶斯的准确率低于SVM和SGD,尤其是在高维特征空间中表现更差。
  • 随机梯度下降表现出具有竞争力的性能,但在所有评估配置中均未超越SVM。
  • 卡方方法通过从文档语料库中选择最具区分性的词项,显著提升了分类器性能。
  • 总体而言,SVM与卡方特征选择的组合是孟加拉文书分类中最有效的策略。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。