Skip to main content
QUICK REVIEW

[论文解读] A Comparative Study of Feature Selection Methods for Dialectal Arabic Sentiment Classification Using Support Vector Machine

Omar Al-Harbi|arXiv (Cornell University)|Feb 17, 2019
Sentiment Analysis and Opinion Mining参考文献 41被引用 26
一句话总结

本研究评估了五种特征选择方法——信息增益、相关性、SVM、基尼指数和卡方检验——在使用SVM分类器进行方言约旦阿拉伯语情感分类中的表现。结合SVM与相关性特征选择方法,并采用一元语言模型,取得了最高性能,表明混合特征选择方法可提升低资源、形态复杂的语言(如方言阿拉伯语)的分类准确率。

ABSTRACT

Unlike other languages, the Arabic language has a morphological complexity which makes the Arabic sentiment analysis is a challenging task. Moreover, the presence of the dialects in the Arabic texts have made the sentiment analysis task is more challenging, due to the absence of specific rules that govern the writing or speaking system. Generally, one of the problems of sentiment analysis is the high dimensionality of the feature vector. To resolve this problem, many feature selection methods have been proposed. In contrast to the dialectal Arabic language, these selection methods have been investigated widely for the English language. This work investigated the effect of feature selection methods and their combinations on dialectal Arabic sentiment classification. The feature selection methods are Information Gain (IG), Correlation, Support Vector Machine (SVM), Gini Index (GI), and Chi-Square. A number of experiments were carried out on dialectical Jordanian reviews with using an SVM classifier. Furthermore, the effect of different term weighting schemes, stemmers, stop words removal, and feature models on the performance were investigated. The experimental results showed that the best performance of the SVM classifier was obtained after the SVM and correlation feature selection methods had been combined with the uni-gram model.

研究动机与目标

  • 为解决方言阿拉伯语情感分类中高维特征空间的挑战。
  • 评估五种基于过滤的特征选择方法在低资源、形态复杂的方言阿拉伯语情境下的有效性。
  • 研究词频加权、词干还原和停用词去除对分类性能的影响。
  • 识别方言阿拉伯语情感分析中最佳的特征选择与表示技术组合。
  • 为低资源自然语言处理场景下特征选择的有效性提供实证证据。

提出的方法

  • 应用了五种基于过滤的特征选择方法:信息增益(IG)、相关性、支持向量机(SVM)、基尼指数(GI)和卡方检验。
  • 实验使用SVM分类器对约旦方言评论数据集进行情感分类。
  • 特征模型基于一元、二元和三元语言模型表示,采用如TF-IDF等词频加权方案。
  • 文本预处理包括使用方言专用词干还原器进行停用词去除和词干还原。
  • 通过准确率、精确率、召回率和F1分数等标准指标评估性能。
  • 测试了结合SVM与相关性特征选择的混合方法,以评估其协同效应。

实验结果

研究问题

  • RQ1哪种特征选择方法在方言阿拉伯语情感分类中能获得最高分类准确率?
  • RQ2在低资源阿拉伯语自然语言处理任务中,多种特征选择方法的组合如何影响性能?
  • RQ3当与特定特征选择技术结合时,最优特征模型(如一元、二元)是什么?
  • RQ4词频加权、词干还原和停用词去除如何影响方言阿拉伯语中特征选择的有效性?
  • RQ5使用混合特征选择策略(如SVM + 相关性)是否优于单一方法?

主要发现

  • 结合SVM与相关性特征选择方法,并采用一元语言模型,实现了最高分类准确率。
  • 基于SVM的特征选择方法单独使用时,优于其他单一方法,包括信息增益和卡方检验。
  • 相关性方法与SVM选择方法结合时表现出显著协同效应,性能优于任一方法单独使用。
  • 一元语言模型在所有特征选择方法下均持续优于二元和三元语言模型。
  • 词频加权和停用词去除的使用显著提升了分类结果,尤其在与高效特征选择结合时。
  • 词干还原具有积极但可变的影响,具体取决于所采用的特征选择方法和模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。