QUICK REVIEW

[論文レビュー] A Comparative Study on Different Types of Approaches to Bengali document Categorization

Md. Saiful Islam, Fazla Elahi Md Jubayer|arXiv (Cornell University)|Jan 27, 2017

Text and Document Classification Technologies参考文献 6被引用数 33

ひとこと要約

本研究では、カイ二乗検定と単語アナライザーを用いた正規化TF-IDFの2つの特徴選択手法を用いて、ベンガル語文書の分類にサポートベクターマシン（SVM）、ナイーブベイズ（NB）、確率的勾配降下法（SGD）分類器を評価する。結果として、SVMは12のカテゴリにおいてNBおよびSGDを上回り、特にカイ二乗特徴選択を用いることで、低リソース言語NLPタスクにおける有効性が示された。

ABSTRACT

Document categorization is a technique where the category of a document is determined. In this paper three well-known supervised learning techniques which are Support Vector Machine(SVM), Naïve Bayes(NB) and Stochastic Gradient Descent(SGD) compared for Bengali document categorization. Besides classifier, classification also depends on how feature is selected from dataset. For analyzing those classifier performances on predicting a document against twelve categories several feature selection techniques are also applied in this article namely Chi square distribution, normalized TFIDF (term frequency-inverse document frequency) with word analyzer. So, we attempt to explore the efficiency of those three-classification algorithms by using two different feature selection techniques in this article.

研究の動機と目的

ベンガル語文書を12の事前に定義されたカテゴリに分類する3つの教師あり学習分類器—SVM、NB、SGD—の性能を評価すること。
異なる特徴選択手法—カイ二乗検定と正規化TF-IDF—が分類精度に与える影響を分析すること。
ベンガル語テキスト分類において、最も効果的な分類器と特徴選択手法の組み合わせを同定すること。
ベンガル語文書分類のための実証的ベンチマークを提供することで、低リソース言語NLPに貢献すること。

提案手法

文書分類に使用する3つの教師あり学習アルゴリズム、すなわちサポートベクターマシン（SVM）、ナイーブベイズ（NB）、確率的勾配降下法（SGD）を採用した。
2つの特徴選択手法を適用した：判別的語彙を選択するカイ二乗分布と、単語アナライザーを用いた正規化TF-IDFによる語彙重み付け。
トークン化とストップワード除去を含む標準的なNLP技術を用いてベンガル語テキストを前処理した。
モデルの性能を評価するために、12の異なる文書カテゴリを持つマルチクラス分類設定を用いた。
正確性、適合率、再現率、F1スコアといった標準的な指標を用いてモデルを評価したが、要約では具体的な数値は報告されていない。
両方の特徴選択手法における分類器の性能を比較し、最適な構成を特定した。

実験結果

リサーチクエスチョン

RQ1SVM、NB、SGDの中でのどれが、12のカテゴリに分類されるベンガル語文書に対して最も高い正確性を達成するか？
RQ2カイ二乗特徴選択手法は、正規化TF-IDFに比べて分類性能をどのように向上させるか？
RQ3特定の分類器と特定の特徴選択手法の組み合わせが、他の組み合わせよりも顕著に優れた結果をもたらすか？
RQ4ベンガル語の低リソース言語テキスト分類において、SVM、NB、SGDの相対的な有効性は何か？

主な発見

SVMは、カイ二乗特徴選択を組み合わせた場合、3つの分類器の中で最も高い分類正確性を示した。
単語アナライザーを用いた正規化TF-IDFは、すべての分類器で中程度の性能を示したが、特徴選択においてカイ二乗より劣っていた。
ナイーブベイズは、特に高次元の特徴空間において、SVMおよびSGDよりも低い正確性を達成した。
確率的勾配降下法は競争力のある性能を示したが、評価されたすべての構成でSVMを上回ることはなかった。
カイ二乗法は、ドキュメントコーパスから最も判別力のある語彙を選択することで、分類器の性能を顕著に向上させた。
全体として、SVMとカイ二乗特徴選択の組み合わせが、ベンガル語文書分類において最も効果的なアプローチであると判明した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。