Skip to main content
QUICK REVIEW

[論文レビュー] The Long and the Short of It: Summarising Event Sequences with Serial Episodes

Nikolaj Tatti, Jilles Vreeken|arXiv (Cornell University)|Feb 7, 2019
Data Mining Algorithms and Applications参考文献 27被引用数 80
ひとこと要約

この論文は Minimum Description Length (MDL) を用いてイベント列を要約し、連続エピソードの小さく冗長性のないセットを選択する。データ構造パターンセット構築のための2つの探索戦略。

ABSTRACT

An ideal outcome of pattern mining is a small set of informative patterns, containing no redundancy or noise, that identifies the key structure of the data at hand. Standard frequent pattern miners do not achieve this goal, as due to the pattern explosion typically very large numbers of highly redundant patterns are returned. We pursue the ideal for sequential data, by employing a pattern set mining approach-an approach where, instead of ranking patterns individually, we consider results as a whole. Pattern set mining has been successfully applied to transactional data, but has been surprisingly under studied for sequential data. In this paper, we employ the MDL principle to identify the set of sequential patterns that summarises the data best. In particular, we formalise how to encode sequential data using sets of serial episodes, and use the encoded length as a quality score. As search strategy, we propose two approaches: the first algorithm selects a good pattern set from a large candidate set, while the second is a parameter-free any-time algorithm that mines pattern sets directly from the data. Experimentation on synthetic and real data demonstrates we efficiently discover small sets of informative patterns.

研究の動機と目的

  • データをうまく要約する小さく情報豊富で冗長性のないパターンセットを求めることによって、逐次パターンマイニングのパターン爆発に対処する。
  • Minimum Description Length 原理を活用して、イベント列を端的に説明するパターンセットを評価・選択する。
  • 連続エピソードを用いた列のエンコードを形式化し、エンコード長を通じてモデル品質の指標を導出する。
  • 良いパターンセットを見つけるための2つのアプローチを提示する:候補フィルタリング法とパラメータフリー、いつでもマイニング法。
  • 合成データと実データでの効率と品質を実証し、コンパクトな要約を生成する。

提案手法

  • コードテーブルを用いてエンコードされた連続イベント列のMDLフレームワークを公式化する。
  • MDLとシャノンのエントロピーを用いてパターン、ギャップ、非ギャップ識別子のコード長を定義する。
  • アラインメントベースのエンコード/デコード方式を開発し、アラインメントを最適化する動的計画法 Align を導出する。
  • Sqs (Summarising event seQuenceS) を導入し、エンコード長を最小化するためにパターンカバレージとアラインメントの間を反復させる。
  • Sqs-Candidates(候補集合からの貪欲選択)と Sqs-Search(直接的、パラメータフリー、任意時間マイニング)という2つのマイニング戦略を提供する。
  • 複雑さと収束性を分析し、収束までアラインメントとコードテーブルの更新を交互に行う反復手順を含む。

実験結果

リサーチクエスチョン

  • RQ1イベント列を小さく冗長性のない連続エピソードの集合で効率的に要約するにはどうすればよいか?
  • RQ2MDL の下で最良の無損失圧縮を得るコードテーブルを用いたエンコード方式はどれか?
  • RQ3総エンコード長を最小化するようにパターンを最適にアラインし、最小ウィンドウを特定するにはどうするか?
  • RQ4大規模な候補集合に頼らず、データから直接高品質なコードテーブルをマイニングするにはどうするか?
  • RQ5提案された Sqs 手法の実データと合成データでの計算特性と実用的性能はどうか?

主な発見

  • この手法は小さく冗長性のないパターンセットを生成する—しばしば数百パターン程度でデータを要約する。
  • 実験は、手法が情報価値の高いパターンを効率的に発見し、ノイズや関連のない頻繁イベントを回避することを示す。
  • Sqs は有限時間で局所最適解へ収束し、実務上は通常少数の反復で済む。
  • 2つの抽出戦略(Sqs-Candidates と Sqs-Search)は、事前にマイニングした候補から、あるいはデータから直接パターンセットを効果的にマイニングできるようにする。
  • エンコード長に基づく評価は、良いパターンセットを効果的に区別し、イベント列の本質的な構造を捉える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。