[论文解读] A Survey on Text Classification: From Shallow to Deep Learning
本综述回顾从传统模型到深度学习的文本分类方法(1961–2021),提出一个分类法,并分析数据集、评估指标及挑战,并给出未来方向。
Text classification is the most fundamental and essential task in natural language processing. The last decade has seen a surge of research in this area due to the unprecedented success of deep learning. Numerous methods, datasets, and evaluation metrics have been proposed in the literature, raising the need for a comprehensive and updated survey. This paper fills the gap by reviewing the state-of-the-art approaches from 1961 to 2021, focusing on models from traditional models to deep learning. We create a taxonomy for text classification according to the text involved and the models used for feature extraction and classification. We then discuss each of these categories in detail, dealing with both the technical developments and benchmark datasets that support tests of predictions. A comprehensive comparison between different techniques, as well as identifying the pros and cons of various evaluation metrics are also provided in this survey. Finally, we conclude by summarizing key implications, future research directions, and the challenges facing the research area.
研究动机与目标
- 对文本分类从传统到深度学习模型进行全面综述。
- 提出基于文本输入以及特征提取/分类模型的文本分类方法分类法。
- 概述单标签和多标签任务的基准数据集和评估指标。
- 提供对评估指标和模型方法的比较分析,并讨论优点与局限性。
- 指出文本分类中的关键挑战和未来研究方向。
提出的方法
- 按输入类型和特征提取/分类方法构建文本分类模型的分类法。
- 详细阐述传统基于特征的流水线(BOW, TF-IDF, word embeddings)以及经典分类器(NB, KNN, SVM, DT, RF, boosting/stacking)。
- 编目深度学习模型与架构(ReNN, CNNs, RNNs, attention, Transformer-based models)及关键里程碑和数据集。
- 提供覆盖模型特征、数据集、评估指标和代码链接的综合表格。
- 比较单标签和多标签任务的评估指标并讨论其优点和局限性。
实验结果
研究问题
- RQ1在1961–2021年间,主导的传统与深度学习文本分类方法是什么?
- RQ2如何按文本表示和模型体系结构对文本分类方法进行分类?
- RQ3有哪些基准数据集和评估指标支持单标签和多标签文本分类,它们的优点/局限性是什么?
- RQ4在模型和数据不断演进的背景下,文本分类的主要挑战和未来方向是什么?
主要发现
- 本综述记录从基于特征工程的传统模型向端到端深度学习方法的演进。
- 它提供一个分类法和表格,总结深度学习模型、数据集、评估指标和代码链接。
- 它讨论传统方法(如计算效率、特征设计)与深度学习模型(如自动特征学习)之间的权衡。
- 它汇编单标签和多标签文本分类的基准数据集和指标,并分析评估衡量的优缺点。
- 它突出数据、建模和性能方面的挑战与未来研究方向。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。