Skip to main content
QUICK REVIEW

[論文レビュー] A Survey on Text Classification: From Shallow to Deep Learning

Qian Li, Hao Peng|arXiv (Cornell University)|Aug 2, 2020
Topic Modeling参考文献 143被引用数 101
ひとこと要約

この調査は、伝統的なモデルから深層学習までのテキスト分類手法をレビューし、分類法の系統分類を提案し、データセット、評価指標、課題を分析し、今後の方向性を示す。

ABSTRACT

Text classification is the most fundamental and essential task in natural language processing. The last decade has seen a surge of research in this area due to the unprecedented success of deep learning. Numerous methods, datasets, and evaluation metrics have been proposed in the literature, raising the need for a comprehensive and updated survey. This paper fills the gap by reviewing the state-of-the-art approaches from 1961 to 2021, focusing on models from traditional models to deep learning. We create a taxonomy for text classification according to the text involved and the models used for feature extraction and classification. We then discuss each of these categories in detail, dealing with both the technical developments and benchmark datasets that support tests of predictions. A comprehensive comparison between different techniques, as well as identifying the pros and cons of various evaluation metrics are also provided in this survey. Finally, we conclude by summarizing key implications, future research directions, and the challenges facing the research area.

研究の動機と目的

  • 包括的なテキスト分類の調査を伝統的から深層学習モデルまで提供する。
  • テキスト入力と特徴抽出/分類モデルに基づくテキスト分類手法の分類系を提案する。
  • 単一ラベルおよびマルチラベルタスクのベンチマークデータセットと評価指標を要約する。
  • 評価指標とモデルアプローチの長所と短所を比較分析し検討する。
  • テキスト分類における主要な課題と今後の研究方向を特定する。

提案手法

  • 入力タイプと特徴抽出/分類アプローチによるテキスト分類モデルの系統分類を構築する。
  • 伝統的な特徴ベースのパイプライン(BOW, TF-IDF, word embeddings)と古典的分類器(NB, KNN, SVM, DT, RF, boosting/stacking)を詳述する。
  • 深層学習モデルとアーキテクチャをカタログ化(ReNN, CNNs, RNNs, attention, Transformer-based models)と主要なマイルストーンとデータセット。
  • モデルの特徴、データセット、評価指標、コードリンクを網羅的な表で提供する。
  • 単一ラベルおよびマルチラベルタスクの評価指標を比較し、それらの利点と制限を論じる。

実験結果

リサーチクエスチョン

  • RQ11961–2021における伝統的アプローチと深層学習アプローチの支配的な手法は何か?
  • RQ2テキスト表現とモデルアーキテクチャに基づいてテキスト分類手法をどのように分類できるか?
  • RQ3単一ラベルおよびマルチラベルのテキスト分類をサポートするベンチマークデータセットと評価指標は何か、長所と制限は何か?
  • RQ4発展するモデルとデータを踏まえたテキスト分類の主要な課題と今後の方向性は何か?

主な発見

  • 本調査は、特徴工学ベースの伝統的モデルからエンドツーエンドの深層学習アプローチへの進展を記録している。
  • 深層学習モデル、データセット、評価指標、およびコードリンクを要約する系統分類と表を提供する。
  • 伝統的手法(計算効率、特徴設計など)と深層学習モデル(自動特徴学習など)とのトレードオフを論じる。
  • 単一ラベルおよびマルチラベルのテキスト分類のベンチマークデータセットと指標を整理し、評価指標の長所と短所を分析する。
  • テキスト分類のデータ・モデリング・性能の側面における課題と今後の研究方向を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。