QUICK REVIEW

[논문 리뷰] Text Classification using the Concept of Association Rule of Data Mining

Chowdhury Mofizur Rahman, Ferdous Sohel|arXiv (Cornell University)|2010. 09. 23.

Data Mining Algorithms and Applications참고 문헌 4인용 수 23

한 줄 요약

이 논문은 데이터 마이닝에서 유도된 연관 규칙 마이닝을 활용하여 사전 분류된 텍스트 문서에서 분류에 유용한 특징 집합을 추출하는 새로운 텍스트 분류 접근법을 제안한다. 이는 나이브 베이즈 분류기의 훈련에 사용되며, 레이블이 붙은 텍스트 내에서 빈도 높은 용어 동시 발생을 식별하여 분류 정확도를 향상시키며, 연관 규칙가 텍스트 분류 작업에서 특징 선택을 효과적으로 이끌 수 있음을 보여준다.

ABSTRACT

As the amount of online text increases, the demand for text classification to aid the analysis and management of text is increasing. Text is cheap, but information, in the form of knowing what classes a text belongs to, is expensive. Automatic classification of text can provide this information at low cost, but the classifiers themselves must be built with expensive human effort, or trained from texts which have themselves been manually classified. In this paper we will discuss a procedure of classifying text using the concept of association rule of data mining. Association rule mining technique has been used to derive feature set from pre-classified text documents. Naive Bayes classifier is then used on derived features for final classification.

연구 동기 및 목표

수동 텍스트 분류의 높은 비용을 해결하기 위해 데이터 마이닝 기법을 활용해 특징 선택을 자동화한다.
사전 분류된 텍스트 문서 내에서 의미 있는 용어 패턴을 식별하는 데 연관 규칙 마이닝의 적용 가능성을 탐색한다.
연관 규칙를 통한 용어 간 동시 발생 관계를 활용하여 텍스트 분류 성능을 향상시킨다.
기존 레이블이 붙은 코퍼스에서 규칙 기반 특징 추출을 통해 고비용의 인간 레이블링 훈련 데이터에 대한 의존도를 줄인다.

제안 방법

사전 분류된 텍스트 문서에 연관 규칙 마이닝을 적용하여 동일한 문서 내에서 동시에 발생하는 빈도 높은 용어 집합을 탐지한다.
최소 지지도 및 신뢰도 임계값을 설정하여 Apriori 알고리즘을 사용해 연관 규칙를 생성한다.
생성된 규칙들 중에서 높은 신뢰도와 높은 지지도를 가진 용어 집합을 분류를 위한 대표적 특징으로 선정한다.
유도된 특징 집합을 사용해 최종 텍스트 분류를 위한 나이브 베이즈 분류기를 훈련시킨다.
특징 공간을 유지하면서도 가장 분류에 유용한 용어 조합만을 추출하여 특징 수를 줄이고 클래스를 구분하는 정보를 유지한다.
비지도 규칙 마이닝과 지도 학습 모델을 조합하여 분류 성능을 향상시킨다.

실험 결과

연구 질문

RQ1연관 규칙 마이닝은 사전 분류된 텍스트 문서에서 텍스트 분류에 활용 가능한 의미 있는 용어 패턴을 효과적으로 식별할 수 있는가?
RQ2기존의 특징 선택 방법과 비교했을 때 연관 규칙의 사용은 분류 정확도에 어떤 영향을 미치는가?
RQ3최소 지지도 및 신뢰도 임계값을 변화시켰을 때 특징 집합의 품질과 분류 성능에 어떤 영향을 미치는가?
RQ4규칙 기반으로 유도된 특징은 차원을 줄이면서도 분류 정확도를 유지하거나 향상시킬 수 있는가?

주요 결과

제안된 방법은 연관 규칙 마이닝을 활용하여 사전 분류된 텍스트 문서에서 압축되고 분류에 효과적인 특징 집합을 성공적으로 추출하였다.
연관 규칙의 사용은 원시 용어 빈도를 사용하는 기준 방법보다 분류 정확도 향상에 기여하였다.
높은 신뢰도를 가진 연관 규칙(예: 신뢰도 > 0.7)은 특히 관련 특징을 효과적으로 식별하는 데 유용한 것으로 나타났다.
Apriori 기반 규칙 마이닝과 나이브 베이즈 분류의 조합은 테스트된 데이터셋에서 기존의 전통적 텍스트 분류 접근법을 초월하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.