Skip to main content
QUICK REVIEW

[논문 리뷰] A Comprehensive Survey of Text Classification Techniques and Their Research Applications: Observational and Experimental Insights

Kamal Taha, Paul D. Yoo|arXiv (Cornell University)|2024. 01. 11.
Text and Document Classification Technologies인용 수 5
한 줄 요약

연구 분야와 방법론에 따라 텍스트 분류 기술을 분류하는 계보 기반 조사이며, 기술을 경험적이고 실험적으로 비교하여 분야별 지침을 제공한다.

ABSTRACT

The exponential growth of textual data presents substantial challenges in management and analysis, notably due to high storage and processing costs. Text classification, a vital aspect of text mining, provides robust solutions by enabling efficient categorization and organization of text data. These techniques allow individuals, researchers, and businesses to derive meaningful patterns and insights from large volumes of text. This survey paper introduces a comprehensive taxonomy specifically designed for text classification based on research fields. The taxonomy is structured into hierarchical levels: research field-based category, research field-based sub-category, methodology-based technique, methodology sub-technique, and research field applications. We employ a dual evaluation approach: empirical and experimental. Empirically, we assess text classification techniques across four critical criteria. Experimentally, we compare and rank the methodology sub-techniques within the same methodology technique and within the same overall research field sub-category. This structured taxonomy, coupled with thorough evaluations, provides a detailed and nuanced understanding of text classification algorithms and their applications, empowering researchers to make informed decisions based on precise, field-specific insights.

연구 동기 및 목표

  • 텍스트 분류에 대한 계층적이고 분야 기반의 분류 체계 생성
  • 여러 기준에 걸쳐 텍스트 분류 기술을 경험적으로 평가
  • 같은 기술 및 분야 내에서 방법론 서브기술을 비교하고 순위 매기기
  • 관찰적 통찰과 실험적 결과를 결합하여 연구자들이 방법 선택을 안내
  • 알고리즘 적용 가능성과 한계에 대한 분야별 이해 증진

제안 방법

  • 연구 분야 카테고리, 연구 분야 서브 카테고리, 방법론 기법, 방법론 서브기술, 그리고 연구 분야 적용에 이르는 계층적 분류 체계 구축
  • 기술 평가를 네 가지 기준으로 적용하여 기법을 평가
  • 같은 기술과 분야 내에서 서브 기술을 순위 매기기 위한 실험 비교 수행
  • 실험 결과를 보완하기 위한 관찰적 통찰 활용
  • 연구자들이 정보에 입각한 의사 결정을 내릴 수 있도록 결과를 종합

실험 결과

연구 질문

  • RQ1텍스트 분류 기술에 대한 포괄적이고 분야 기반의 분류 체계는 무엇인가?
  • RQ2정의된 경험적 기준에서 서로 다른 연구 분야 간 텍스트 분류 기술은 어떻게 비교되는가?
  • RQ3실험적 증거에 따라 같은 기술과 분야 내 서브 기술은 어떻게 순위가 매겨지는가?
  • RQ4텍스트 분류 방법 선택을 위한 실용적이고 분야별 지침은 무엇인가?

주요 결과

  • 연구 분야에 맞춘 계층적 분류 체계가 제시된다.
  • 실험적 평가가 기술 평가의 네 가지 핵심 기준을 다룬다.
  • 실험적 비교는 같은 기술과 분야 내 서브 기술의 순위를 제공한다.
  • 통합된 분류 체계와 평가가 연구자에게 분야별로 미묘한 지침을 제공한다.
  • 이 접근법은 도메인 간 텍스트 분류 방법 선택에 대해 정보에 기반한 의사 결정을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.