Skip to main content
QUICK REVIEW

[논문 리뷰] A Comparative Study on Different Types of Approaches to Bengali document Categorization

Md. Saiful Islam, Fazla Elahi Md Jubayer|arXiv (Cornell University)|2017. 01. 27.
Text and Document Classification Technologies참고 문헌 6인용 수 33
한 줄 요약

이 연구는 벵골 문서 분류를 위한 서포트 벡터 머신(SVM), 나이브 베이즈(NB), 확률적 경사 하강법(SGD) 분류기를 두 가지 특징 선택 방법인 카이제곱 및 정규화된 TF-IDF와 함께 사용하여 평가한다. 결과적으로 SVM은 12개의 카테고리 전반에서 NB와 SGD를 앞서며, 특히 카이제곱 특징 선택을 사용할 경우에 그 효과가 뚜렷하다. 이는 저자원 언어 NLP 과제에서의 유용성을 보여준다.

ABSTRACT

Document categorization is a technique where the category of a document is determined. In this paper three well-known supervised learning techniques which are Support Vector Machine(SVM), Naïve Bayes(NB) and Stochastic Gradient Descent(SGD) compared for Bengali document categorization. Besides classifier, classification also depends on how feature is selected from dataset. For analyzing those classifier performances on predicting a document against twelve categories several feature selection techniques are also applied in this article namely Chi square distribution, normalized TFIDF (term frequency-inverse document frequency) with word analyzer. So, we attempt to explore the efficiency of those three-classification algorithms by using two different feature selection techniques in this article.

연구 동기 및 목표

  • 12개의 사전 정의된 카테고리로 벵골 문서를 분류하는 데 있어 세 가지 지도 학습 분류기—SVM, NB, SGD—의 성능을 평가하는 것.
  • 다른 특징 선택 기법—카이제곱 및 정규화된 TF-IDF—가 분류 정확도에 미치는 영향을 분석하는 것.
  • 벵골 텍스트 분류 과제에서 가장 효과적인 분류기와 특징 선택 기법의 조합을 특정하는 것.
  • 벵골 문서 분류를 위한 실증적 기준을 제공하여 저자원 언어 NLP에 기여하는 것.

제안 방법

  • 문서 분류를 위해 서포트 벡터 머신(SVM), 나이브 베이즈(NB), 확률적 경사 하강법(SGD)의 세 가지 지도 학습 알고리즘을 사용하였다.
  • 특징 선택 기법으로 카이제곱 분포를 사용하여 분류에 기여하는 용어를 선별하고, 단어 분석기를 사용한 정규화된 TF-IDF를 사용하여 용어 가중치를 설정하였다.
  • 토큰화 및 불용어 제거를 포함한 표준 자연어 처리 기법을 사용하여 벵골 텍스트를 전처리하였다.
  • 모델 성능 평가를 위해 12개의 서로 다른 문서 카테고리로 구성된 다중 클래스 분류 설정을 사용하였다.
  • 정확도, 정밀도, 재현율, F1-스코어와 같은 표준 메트릭을 사용하여 모델을 평가하였으며, 구체적인 수치는 요약에서 기재되지 않았다.
  • 모든 특징 선택 기법에 대해 분류기 성능을 비교하여 최적의 구성 조합을 도출하였다.

실험 결과

연구 질문

  • RQ1SVM, NB, 또는 SGD 중에서 어느 분류기가 12개 카테고리로 벵골 문서를 분류하는 데 가장 높은 정확도를 달성하는가?
  • RQ2카이제곱 특징 선택 기법은 정규화된 TF-IDF에 비해 분류 성능 향상에 얼마나 효과적인가?
  • RQ3특정 분류기와 특정 특징 선택 기법의 조합이 다른 조합보다 유의미하게 더 나은 결과를 내는가?
  • RQ4저자원 언어 텍스트 분류 과제인 벵골어에서 SVM, NB, SGD의 상대적 효과성은 어떠한가?

주요 결과

  • SVM는 카이제곱 특징 선택 기법과 조합했을 때 세 분류기 중에서 가장 높은 분류 정확도를 보였다.
  • 정규화된 TF-IDF와 단어 분석기를 사용한 기법은 모든 분류기에서 중간 수준의 성능를 보였지만, 특징 선택 측면에선 카이제곱 기법보다 낮은 효과를 보였다.
  • 나이브 베이즈는 고차원 특징 공간에서 SVM과 SGD에 비해 낮은 정확도를 기록하였다.
  • 확률적 경사 하강법는 경쟁력 있는 성능를 보였지만, 평가된 모든 구성에서 SVM을 뛰어넘지 못했다.
  • 카이제곱 기법은 문서 코퍼스에서 가장 분류에 기여하는 용어를 선별함으로써 분류기 성능을 크게 향상시켰다.
  • 종합적으로 볼 때, SVM과 카이제곱 특징 선택 기법의 조합이 벵골 문서 분류 과제에서 가장 효과적인 접근 방식으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.