QUICK REVIEW

[論文レビュー] Text Classification using the Concept of Association Rule of Data Mining

Chowdhury Mofizur Rahman, Ferdous Sohel|arXiv (Cornell University)|Sep 23, 2010

Data Mining Algorithms and Applications参考文献 4被引用数 23

ひとこと要約

本稿では、データマイニングからの連携ルールマイニングを活用して、事前に分類済みのテキストドキュメントから判別性の高い特徴集合を抽出する、新しいテキスト分類アプローチを提案する。抽出された特徴は、ナイーブベイズ分類器の学習に使用され、ラベル付きテキスト内での頻出語の共起を特定することにより分類精度が向上し、連携ルールがテキスト分類タスクにおける特徴選択を効果的に導くことができることを示している。

ABSTRACT

As the amount of online text increases, the demand for text classification to aid the analysis and management of text is increasing. Text is cheap, but information, in the form of knowing what classes a text belongs to, is expensive. Automatic classification of text can provide this information at low cost, but the classifiers themselves must be built with expensive human effort, or trained from texts which have themselves been manually classified. In this paper we will discuss a procedure of classifying text using the concept of association rule of data mining. Association rule mining technique has been used to derive feature set from pre-classified text documents. Naive Bayes classifier is then used on derived features for final classification.

研究の動機と目的

手作業によるテキスト分類の高コストを低減するため、データマイニング技術を用いて特徴選択を自動化すること。
事前に分類済みのテキストドキュメント内における意味のある語のパターンを特定するため、連携ルールマイニングの適用可能性を検討すること。
連携ルールを通じた語の共起関係を活用することで、テキスト分類のパフォーマンスを向上させること。
既存のラベル付きコーパスからのルールベース特徴抽出を用いることで、高価な人工作業によるラベル付き学習データに依存するのを減らすこと。

提案手法

事前に分類済みのテキストドキュメントに対して連携ルールマイニングを適用し、同じドキュメント内で共起する語の頻出アイテムセットを発見する。
最小サポートと信頼度のしきい値を指定して、アプローチ・アルゴリズムを用いて連携ルールを生成する。
生成されたルールから、高い信頼度と高いサポートを持つ語の集合を、分類のための代表的特徴として選択する。
導出された特徴集合を用いて、最終的なテキスト分類のためのナイーブベイズ分類器を学習する。
本手法は、特徴空間を縮小しつつクラス判別情報を保持するため、最も判別性の高い語の組み合わせのみを抽出することに焦点を当てる。
教師あり学習モデルと非教師ありルールマイニングを組み合わせることで、分類パフォーマンスを向上させる。

実験結果

リサーチクエスチョン

RQ1連携ルールマイニングは、事前に分類済みのテキストドキュメント内における意味のある語のパターンを効果的に特定できるか？
RQ2従来の特徴選択手法と比較して、連携ルールの使用は分類精度にどのように影響するか？
RQ3最小サポートと信頼度のしきい値を変更した場合、特徴集合の品質と分類パフォーマンスにどのような影響が生じるか？
RQ4ルールから導出された特徴は、次元削減を実現しつつ、分類精度を維持または向上させることができるか？

主な発見

提案手法は、連携ルールマイニングを用いて、事前に分類済みのテキストドキュメントからコンパクトで判別性の高い特徴集合を効果的に抽出できた。
連携ルールの使用により、原始的な語の頻度を用いたベースライン手法と比較して、分類精度が向上した。
高い信頼度を持つ連携ルール（例：信頼度 > 0.7）は、関連する特徴を特定するのに特に効果的であることが判明した。
アプローチ・アルゴリズムに基づくルールマイニングとナイーブベイズ分類の組み合わせは、テストされたデータセットにおいて、従来のテキスト分類アプローチを上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。