QUICK REVIEW

[论文解读] A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques

Mehdi Allahyari, Seyed Amin Pouriyeh|arXiv (Cornell University)|Jul 10, 2017

Advanced Text Analysis Techniques参考文献 123被引用 512

一句话总结

本综述回顾文本挖掘的基础任务和技术，包括预处理、表示、分类、聚类，以及如生物医学文本挖掘等领域应用。

ABSTRACT

The amount of text that is generated every day is increasing dramatically. This tremendous volume of mostly unstructured text cannot be simply processed and perceived by computers. Therefore, efficient and effective techniques and algorithms are required to discover useful patterns. Text mining is the task of extracting meaningful information from text, which has gained significant attentions in recent years. In this paper, we describe several of the most fundamental text mining tasks and techniques including text pre-processing, classification and clustering. Additionally, we briefly explain text mining in biomedical and health care domains.

研究动机与目标

解释文本挖掘和从文本中进行知识发现（KDT）的关键概念、任务与关系。
描述文本挖掘中使用的核心预处理、表示和学习方法。
概述文本数据中用于分类和聚类的有监督与无监督方法。
讨论如生物医学文本挖掘和情感分析等领域特定的应用。

提出的方法

介绍文本挖掘的概念并将KDD与数据挖掘区分开。
通过词袋模型和向量空间模型（包括TF-IDF）描述文本表示。
呈现预处理步骤（分词、过滤、词形还原、词干提取）及其对分类的影响。
回顾分类算法（朴素贝叶斯、最近邻、决策树、支持向量机）及评估指标（精确率、召回率、F1）。
讨论聚类方法（层次聚类、k-means、概率主题）和主题模型（pLSA、LDA）。
突出特殊领域中的文本挖掘应用（信息检索、自然语言处理、信息抽取、文本摘要，以及生物医学文本挖掘）。

实验结果

研究问题

RQ1文本挖掘的基本任务和组成部分是什么？
RQ2预处理、表示和学习方法如何影响文本挖掘的性能？
RQ3用于文本分类与聚类的主要有监督与无监督技术有哪些？
RQ4主题模型和概率方法如何应用于文本数据？
RQ5在生物医学文本挖掘和情感分析中的领域特定考虑因素有哪些？

主要发现

本文汇集了文本挖掘的核心任务：预处理、表示、分类、聚类、信息检索与信息提取。
词袋模型结合向量空间模型和TF-IDF是文档表示与相似度计算的核心。
回顾了包括朴素贝叶斯、最近邻、决策树和SVM在内的各种分类方法，并讨论它们的相对优点。
聚类介绍了层次聚类、k-means以及基于概率/主题模型的方法（pLSA、LDA）。
主题模型（LDA、pLSA）被认为是在文本集合中发现主题的强大无监督方法。
领域特定讨论包括信息提取、文本摘要、意见挖掘以及生物医学文本挖掘。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。