Skip to main content
QUICK REVIEW

[论文解读] Data Compression approach to Information Extraction and Classification

Andrea Baronchelli, Vittorio Loreto|arXiv (Cornell University)|Mar 9, 2004
Advanced Computational Techniques and Applications被引用 1
一句话总结

本文提出了一种新颖的信息抽取与分类框架,利用数据压缩技术基于文本序列的信息内容度量其句法远近。通过利用基于压缩的相似性,该方法能够有效实现自动语言识别、作者归属、基于上下文的分类以及通用分类,其应用范围不仅限于语言学,还可扩展至任意字符序列数据。

ABSTRACT

In this paper we present a class of general methods for information extraction and automatic categorization. These methods exploit the features of data compression techniques in order to define a measure of syntactic remoteness between pairs of sequences of characters (e.g. texts) based on their relative informatic content. Using this elementary tool it is possible to implement several algorithms to address problems of information retrieval in very different domains. We address in particular several linguistic motivated problems and we present results for automatic language recognition, authorship attribution, context-based classification as well as automatic universal classification. We also discuss in detail how specific features of data compression techniques could be used to introduce the notion of dictionary of a given sequence and of Artificial Text and we show how these new tools can be used for information retrieval purposes. We finally discuss the relevance of our results in non-linguistic fields, i.e. whenever the information is codified in generic sequences of characters. 1

研究动机与目标

  • 开发基于数据压缩的一般性方法,用于信息抽取与自动分类。
  • 基于文本序列的相对信息内容,定义其句法远近的度量方法。
  • 将基于压缩的技术应用于语言学问题,如语言识别、作者归属与基于上下文的分类。
  • 引入‘字典’与‘人工文本’的概念,以增强信息检索能力。
  • 将该方法的适用范围扩展至涉及通用字符序列的非语言学领域。

提出的方法

  • 利用数据压缩技术,基于文本序列的信息内容计算其句法远近度量。
  • 以基于压缩的相似性为基础,实现文本的聚类与分类。
  • 引入基于序列压缩特征的‘字典’概念,以捕捉结构模式。
  • 将‘人工文本’定义为从压缩特征生成的合成序列,以辅助检索与分类。
  • 应用基于压缩的距离度量方法,解决自动语言识别与作者归属问题。
  • 通过将任意字符序列视为分析候选,将该框架扩展至通用分类。

实验结果

研究问题

  • RQ1如何利用数据压缩来定义文本序列之间句法远近的有意义度量?
  • RQ2基于压缩的相似性在多大程度上可提升自动语言识别与作者归属的性能?
  • RQ3从压缩特征中提取的‘字典’概念能否增强信息检索?
  • RQ4如何通过从压缩特征生成人工文本支持分类任务?
  • RQ5该框架能否推广至涉及任意字符序列的非语言学领域?

主要发现

  • 基于压缩的句法远近距离度量能有效捕捉文本间的结构差异,实现高精度分类。
  • 该方法仅使用基于压缩的特征,即在自动语言识别与作者归属任务中表现优异。
  • 从压缩特征中提取的‘字典’概念为检索提供了建模序列结构的创新方法。
  • 从压缩特征生成人工文本,可实现跨多样化领域的稳健通用分类。
  • 该框架在语言学之外也具有适用性,支持任何包含字符序列数据领域的信息检索。
  • 该方法提供了一种通用、与语言无关的信息抽取与分类方法,无需语言学预处理。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。