QUICK REVIEW

[논문 리뷰] A Survey on Text Classification: From Shallow to Deep Learning

Qian Li, Hao Peng|arXiv (Cornell University)|2020. 08. 02.

Topic Modeling참고 문헌 143인용 수 101

한 줄 요약

이 설문조사는 전통 모델에서 딥 러닝에 이르는 텍스트 분류 방법을 검토하고 1961–2021, 분류체계 제안, 데이터셋, 평가 지표, 도전과제를 분석하며 향후 방향을 제시합니다.

ABSTRACT

Text classification is the most fundamental and essential task in natural language processing. The last decade has seen a surge of research in this area due to the unprecedented success of deep learning. Numerous methods, datasets, and evaluation metrics have been proposed in the literature, raising the need for a comprehensive and updated survey. This paper fills the gap by reviewing the state-of-the-art approaches from 1961 to 2021, focusing on models from traditional models to deep learning. We create a taxonomy for text classification according to the text involved and the models used for feature extraction and classification. We then discuss each of these categories in detail, dealing with both the technical developments and benchmark datasets that support tests of predictions. A comprehensive comparison between different techniques, as well as identifying the pros and cons of various evaluation metrics are also provided in this survey. Finally, we conclude by summarizing key implications, future research directions, and the challenges facing the research area.

연구 동기 및 목표

전통적인 모델에서 딥 러닝 모델까지의 텍스트 분류에 대한 포괄적 고찰을 제시한다.
텍스트 입력과 특징 추출/분류 모델을 기반으로 한 텍스트 분류 방법의 분류 체계를 제안한다.
단일-레이블 및 다중-레이블 작업에 대한 벤치마크 데이터셋과 평가 지표를 요약한다.
평가 지표와 모델 접근법의 장단점을 비교 분석하고 논의한다.
텍스트 분류의 주요 도전과제와 향후 연구 방향을 식별한다.

제안 방법

입력 유형과 특징 추출/분류 접근 방식에 따른 텍스트 분류 모델의 분류 체계를 구성한다.
전통적인 특징 기반 파이프라인(BOW, TF-IDF, word embeddings)과 고전 분류기(NB, KNN, SVM, DT, RF, boosting/stacking)를 자세히 설명한다.
주요 이정표와 데이터셋을 포함하여 딥러닝 모델과 아키텍처(ReNN, CNNs, RNNs, attention, Transformer-based models)를 나열한다.
모델 특성, 데이터셋, 평가 지표, 코드 링크를 포함하는 포괄적인 표를 제공한다.
단일-레이블 및 다중-레이블 작업에 대한 평가 지표를 비교하고 장점과 한계에 대해 논의한다.

실험 결과

연구 질문

RQ11961–2021년 동안 텍스트 분류에 지배적인 전통적 접근과 딥 러닝 접근은 무엇인가?
RQ2텍스트 표현 방식과 모델 아키텍처에 따라 텍스트 분류 방법을 어떻게 분류할 수 있는가?
RQ3단일-레이블 및 다중-레이블 텍스트 분류를 지원하는 벤치마크 데이터셋과 평가 지표는 무엇이며, 그 강점/한계는 무엇인가?
RQ4발전하는 모델과 데이터에 비추어 텍스트 분류의 주요 도전과제와 향후 방향은 무엇인가?

주요 결과

본 고찰은 특징 공학 기반의 전통적 모델에서 엔드-투-엔드 딥 러닝 접근으로의 진행을 문서화한다.
딥 러닝 모델, 데이터셋, 평가 지표 및 코드 링크를 요약하는 분류 체계와 표를 제공한다.
전통적 방법(예: 계산 효율성, 특징 설계)과 딥 러닝 모델(예: 자동 특징 학습) 간의 트레이드오프를 논의한다.
단일-레이블 및 다중-레이블 텍스트 분류를 위한 벤치마크 데이터셋과 지표를 수집하고 평가 지표의 장단점을 분석한다.
텍스트 분류의 데이터, 모델링 및 성능 측면에서의 도전과제와 향후 연구 방향을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.