Skip to main content
QUICK REVIEW

[論文レビュー] Data Compression approach to Information Extraction and Classification

Andrea Baronchelli, Vittorio Loreto|arXiv (Cornell University)|Mar 9, 2004
Advanced Computational Techniques and Applications被引用数 1
ひとこと要約

本論文は、テキストシーケンス間の構文的遠隔性をその情報的コンテンツに基づいて測定するためのデータ圧縮技術を用いた、革新的な情報抽出および分類フレームワークを提案する。情報的類似性に基づく圧縮技術を活用することで、言語認識、著者判別、文脈ベースの分類、およびユニバーサル分類が効果的に行えるようになり、言語学的応用にとどまらず、任意の文字列シーケンスデータへ応用が拡張可能である。

ABSTRACT

In this paper we present a class of general methods for information extraction and automatic categorization. These methods exploit the features of data compression techniques in order to define a measure of syntactic remoteness between pairs of sequences of characters (e.g. texts) based on their relative informatic content. Using this elementary tool it is possible to implement several algorithms to address problems of information retrieval in very different domains. We address in particular several linguistic motivated problems and we present results for automatic language recognition, authorship attribution, context-based classification as well as automatic universal classification. We also discuss in detail how specific features of data compression techniques could be used to introduce the notion of dictionary of a given sequence and of Artificial Text and we show how these new tools can be used for information retrieval purposes. We finally discuss the relevance of our results in non-linguistic fields, i.e. whenever the information is codified in generic sequences of characters. 1

研究の動機と目的

  • データ圧縮を用いた一般用途の情報抽出および自動分類手法の開発を目的とする。
  • テキストシーケンス間の相対的情報的コンテンツに基づく構文的遠隔性の測定法を定義すること。
  • 言語認識、著者判別、文脈ベースの分類といった言語学的問題に、圧縮に基づく手法を適用すること。
  • 情報抽出の向上を図るための「辞書」と「人工テキスト」の概念を導入すること。
  • 本手法の適用範囲を、一般の文字列シーケンスを含む非言語的分野へ拡張すること。

提案手法

  • テキストシーケンス間の構文的遠隔性を、その情報的コンテンツに基づいて測定するため、データ圧縮技術を活用する。
  • テキストのクラスタリングおよび分類の基盤として、圧縮に基づく類似性を採用する。
  • シーケンスの圧縮プロファイルから導出される「辞書」の概念を導入し、構造的パターンを捉える。
  • 圧縮特徴から生成された合成シーケンスとしての「人工テキスト」を定義し、検索および分類を支援する。
  • 圧縮に基づく距離尺度を用いて、自動言語認識および著者判別問題を解決する。
  • 任意の文字列シーケンスを分析対象と見なすことで、ユニバーサル分類へのフレームワークの拡張を実現する。

実験結果

リサーチクエスチョン

  • RQ1どのようにしてデータ圧縮を用いて、テキストシーケンス間の意味的な構文的遠隔性の測定法を定義できるか?
  • RQ2圧縮に基づく類似性は、自動言語認識および著者判別の精度をどの程度向上できるか?
  • RQ3圧縮プロファイルから導出される「辞書」の概念は、情報検索をどのように向上させられるか?
  • RQ4圧縮特徴から生成された人工テキストの生成は、分類タスクをどのように支援できるか?
  • RQ5このフレームワークは、任意の文字列シーケンスを含む非言語的分野へ一般化可能か?

主な発見

  • 圧縮に基づく構文的遠隔性の測定法は、テキスト間の構造的差を効果的に捉え、正確な分類を可能にする。
  • 本手法は、言語学的前処理を一切不要とし、圧縮に基づく特徴のみを用いても、自動言語認識および著者判別で優れた性能を達成する。
  • 圧縮プロファイルから導出される「辞書」の概念は、検索のためのシーケンス構造モデリングに新たな手法を提供する。
  • 圧縮特徴から生成された人工テキストは、多様な分野にわたる強固なユニバーサル分類を実現する。
  • 本フレームワークは言語学的応用にとどまらず、文字列シーケンスデータを含むあらゆる分野における情報検索に適用可能であることを示す。
  • 本手法は、言語に依存しない普遍的な情報抽出および分類手法を提供するが、言語学的前処理を必要としない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。