Skip to main content
QUICK REVIEW

[논문 리뷰] A Comparative Study of Feature Selection Methods for Dialectal Arabic Sentiment Classification Using Support Vector Machine

Omar Al-Harbi|arXiv (Cornell University)|2019. 02. 17.
Sentiment Analysis and Opinion Mining참고 문헌 41인용 수 26
한 줄 요약

이 연구는 SVM 분류기를 사용하여 다언어적 요르단 아랍어의 감성 분류를 위해 다섯 가지 특징 선택 방법—정보 이득, 상관관계, 서포트 벡터 머신(SVM), 지니 지수, 카이 제곱 검정—을 평가한다. SVM과 상관관계 특징 선택을 결합한 유니그램 모델이 가장 높은 성능을 보였으며, 이는 저자원, 형태학적으로 복잡한 언어인 다언어적 아랍어에서 하이브리드 특징 선택 기법이 분류 정확도를 향상시킬 수 있음을 시사한다.

ABSTRACT

Unlike other languages, the Arabic language has a morphological complexity which makes the Arabic sentiment analysis is a challenging task. Moreover, the presence of the dialects in the Arabic texts have made the sentiment analysis task is more challenging, due to the absence of specific rules that govern the writing or speaking system. Generally, one of the problems of sentiment analysis is the high dimensionality of the feature vector. To resolve this problem, many feature selection methods have been proposed. In contrast to the dialectal Arabic language, these selection methods have been investigated widely for the English language. This work investigated the effect of feature selection methods and their combinations on dialectal Arabic sentiment classification. The feature selection methods are Information Gain (IG), Correlation, Support Vector Machine (SVM), Gini Index (GI), and Chi-Square. A number of experiments were carried out on dialectical Jordanian reviews with using an SVM classifier. Furthermore, the effect of different term weighting schemes, stemmers, stop words removal, and feature models on the performance were investigated. The experimental results showed that the best performance of the SVM classifier was obtained after the SVM and correlation feature selection methods had been combined with the uni-gram model.

연구 동기 및 목표

  • 다언어적 아랍어 감성 분류에서 고차원적 특징 공간 문제를 해결하기 위해.
  • 저자원, 형태학적으로 복잡한 다언어적 아랍어 환경에서 다섯 가지 필터 기반 특징 선택 방법의 효과성을 평가하기 위해.
  • 용어 가중치, 어간 추출, 정지어 제거 및 특징 모델이 분류 성능에 미치는 영향을 조사하기 위해.
  • 다언어적 아랍어 감성 분석을 위한 최적의 특징 선택 및 표현 기법 조합을 규명하기 위해.
  • 저자원 NLP 환경에서 특징 선택의 유효성에 대한 실증적 증거를 제공하기 위해.

제안 방법

  • 다섯 가지 필터 기반 특징 선택 방법을 적용: 정보 이득(IG), 상관관계, 서포트 벡터 머신(SVM), 지니 지수(GI), 카이 제곱 검정.
  • 실험은 요르단 방언 리뷰 데이터셋을 대상으로 SVM 분류기를 사용해 감성 분류를 수행하였다.
  • 특징 모델은 유니그램, 바이그램, 트라이그램 표현 기반으로 구성되었으며, TF-IDF와 같은 용어 가중치 기법을 사용하였다.
  • 텍스트 전처리에는 정지어 제거와 방언 전용 어간 추출기를 사용하였다.
  • 성능 평가는 정확도, 정밀도, 재현도, F1 점수와 같은 표준 지표를 사용하였다.
  • SVM과 상관관계 특징 선택을 조합한 하이브리드 접근법을 테스트하여 상호 보완 효과를 평가하였다.

실험 결과

연구 질문

  • RQ1다언어적 아랍어 감성 분석에서 어떤 특징 선택 방법이 가장 높은 분류 정확도를 달성하는가?
  • RQ2여러 특징 선택 방법의 조합은 저자원 아랍어 NLP 작업에서 성능에 어떤 영향을 미치는가?
  • RQ3특정 특징 선택 기법과 결합했을 때 최적의 특징 모델(예: 유니그램, 바이그램)은 무엇인가?
  • RQ4용어 가중치, 어간 추출, 정지어 제거는 다언어적 아랍어에서 특징 선택의 효과성에 어떤 영향을 미치는가?
  • RQ5예를 들어 SVM + 상관관계와 같은 하이브리드 특징 선택 전략은 개별 방법보다 성능이 뛰어나게 되는가?

주요 결과

  • SVM과 상관관계 특징 선택을 유니그램 모델과 조합한 결과가 가장 높은 분류 정확도를 기록하였다.
  • SVM 기반 특징 선택 방법은 정보 이득 및 카이 제곱 검정과 같은 다른 개별 방법들을 모두 압도하는 성능을 보였다.
  • 상관관계 방법은 SVM 기반 선택과 함께 강력한 상호 보완 효과를 보였으며, 개별 방법보다 성능 향상을 이룬다.
  • 모든 특징 선택 방법에서 일관되게 유니그램 모델이 바이그램 및 트라이그램 모델보다 뛰어난 성능을 보였다.
  • 용어 가중치 및 정지어 제거의 사용은 특히 효과적인 특징 선택과 조합되었을 때 분류 결과를 크게 향상시켰다.
  • 어간 추출은 긍정적인 영향을 미쳤지만, 특징 선택 방법과 사용된 모델에 따라 결과가 다양하게 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.