Skip to main content
QUICK REVIEW

[論文レビュー] A Comparative Study of Feature Selection Methods for Dialectal Arabic Sentiment Classification Using Support Vector Machine

Omar Al-Harbi|arXiv (Cornell University)|Feb 17, 2019
Sentiment Analysis and Opinion Mining参考文献 41被引用数 26
ひとこと要約

本研究では、SVM分類器を用いて、アラビア語の方言であるヨルダン・アラビア語のセンチメント分類において、情報ゲイン、相関、SVM、ジニインデックス、カイ二乗検定の5つの特徴選択手法を評価した。ユニグラムモデルを用いたSVMと相関特徴選択の組み合わせが最も高い性能を示し、特徴選択のハイブリッド手法が、低リソースで屈曲が複雑な言語、たとえば方言アラビア語において分類精度を向上させることを示している。

ABSTRACT

Unlike other languages, the Arabic language has a morphological complexity which makes the Arabic sentiment analysis is a challenging task. Moreover, the presence of the dialects in the Arabic texts have made the sentiment analysis task is more challenging, due to the absence of specific rules that govern the writing or speaking system. Generally, one of the problems of sentiment analysis is the high dimensionality of the feature vector. To resolve this problem, many feature selection methods have been proposed. In contrast to the dialectal Arabic language, these selection methods have been investigated widely for the English language. This work investigated the effect of feature selection methods and their combinations on dialectal Arabic sentiment classification. The feature selection methods are Information Gain (IG), Correlation, Support Vector Machine (SVM), Gini Index (GI), and Chi-Square. A number of experiments were carried out on dialectical Jordanian reviews with using an SVM classifier. Furthermore, the effect of different term weighting schemes, stemmers, stop words removal, and feature models on the performance were investigated. The experimental results showed that the best performance of the SVM classifier was obtained after the SVM and correlation feature selection methods had been combined with the uni-gram model.

研究の動機と目的

  • 方言アラビア語のセンチメント分類における高次元特徴空間の課題に対処すること。
  • 低リソースで屈曲が複雑な方言アラビア語の文脈において、5つのフィルタベース特徴選択手法の有効性を評価すること。
  • 項目の重み付け、ステミング、ストップワード除去、および特徴モデルが分類パフォーマンスに与える影響を調査すること。
  • 方言アラビア語のセンチメント分類における、特徴選択および表現手法の最適な組み合わせを同定すること。
  • 低リソースNLPシナリオにおける特徴選択の有効性に関する実証的証拠を提供すること。

提案手法

  • 5つのフィルタベース特徴選択手法を適用した:情報ゲイン(IG)、相関、サポートベクターマシン(SVM)、ジニインデックス(GI)、カイ二乗検定。
  • 実験では、ヨルダン方言のレビューから構成されるデータセットを対象に、SVM分類器を用いてセンチメント分類を実施した。
  • 特徴モデルはユニグラム、ビグラム、トライグラム表現に基づき、TF-IDFなどの項目の重み付け方式を用いた。
  • テキスト前処理には、方言に特化したステミングツールを用いたストップワード除去とステミングが含まれた。
  • パフォーマンス評価には、正確度、適合率、再現率、F1スコアなどの標準指標が用いられた。
  • SVMと相関特徴選択のハイブリッドアプローチをテストし、相乗効果の有無を評価した。

実験結果

リサーチクエスチョン

  • RQ1どの特徴選択手法が方言アラビア語のセンチメント分類において最も高い分類正確度を達成するか?
  • RQ2複数の特徴選択手法を組み合わせることで、低リソースアラビア語NLPタスクにおけるパフォーマンスにどのような影響を与えるか?
  • RQ3特定の特徴選択技術と組み合わせた場合、最適な特徴モデル(例:ユニグラム、ビグラム)は何か?
  • RQ4項目の重み付け、ステミング、ストップワード除去は、方言アラビア語における特徴選択の有効性にどのように影響するか?
  • RQ5ハイブリッド特徴選択戦略(例:SVM+相関)は、個別の手法を上回るパフォーマンスを示すか?

主な発見

  • ユニグラムモデルを用いたSVMと相関特徴選択の組み合わせが、最も高い分類正確度を達成した。
  • SVMベースの特徴選択手法は、情報ゲインやカイ二乗検定を含む他の個別の手法を上回った。
  • 相関手法は、SVMベース選択と組み合わせることで強く相乗効果を示し、単独で使用するよりもパフォーマンスが向上した。
  • ユニグラムモデルは、すべての特徴選択手法において、ビグラムおよびトライグラムモデルを一貫して上回った。
  • 項目の重み付けとストップワード除去の使用は、特に効果的な特徴選択と組み合わせることで、分類結果を顕著に改善した。
  • ステミングは肯定的だが、使用する特徴選択手法やモデルに応じて変動する影響を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。