Skip to main content
QUICK REVIEW

[論文レビュー] A Novel Approach for Mining Similarity Profiled Temporal Association Patterns

Vangipuram Radhakrishna, P. V. Kumar|arXiv (Cornell University)|Apr 18, 2016
Data Mining Algorithms and Applications参考文献 14被引用数 24
ひとこと要約

本稿では、正のサポート値および負のサポート値に加え、ベン図を用いた類似性分析を活用することで、時間的データベースにおける類似性プロファイル付きの時間的関連パターンを単一スキャンで抽出する新規な手法を提案する。この手法は、反復的なデータベーススキャンやすべての部分集合のサポート値の維持を不要とせず、従来の頻度パターン抽出手法と比較して計算コストを顕著に低減する。

ABSTRACT

The problem of frequent pattern mining from non-temporal databases is studied extensively by various researchers working in areas of data mining, temporal databases and information retrieval. However, Conventional frequent pattern algorithms are not suitable to find similar temporal association patterns from temporal databases. A Temporal database is a database which can store past, present and future information. The objective of this research is to come up with a novel approach so as to find similar temporal association patterns w.r.t user specified threshold and a given reference support time sequence using concept of Venn diagrams. For this, we maintain two types of supports called positive support and negative support values to find similar temporal association patterns of user interest. The main advantage of our method is that, it performs only a single scan of temporal database to find temporal association patterns similar to specified reference support sequence. This single database scan approach hence eliminates the huge overhead incurred when the database is scanned multiple times. The present approach also eliminates the need to compute and maintain true support values of all the subsets of temporal patterns of previous stages when computing temporal patterns of next stage.

研究の動機と目的

  • 時間的パターンが時間経過とともに変化する時間的データベースにおいて、従来の頻度パターン抽出アルゴリズムの限界を解消すること。
  • ユーザーが指定した基準サポート系列に類似する時間的関連パターンを効率的に発見できること。
  • 反復段階におけるすべてのパターン部分集合の真のサポート値の維持および再計算を回避すること。
  • ユーザーが指定した閾値に基づいて、ベン図を用いた類似性プロファイルメカニズムを導入すること。
  • 冗長なデータベーススキャンおよびサポート計算を最小限に抑えることで、時間的関連パターン抽出における計算コストを低減すること。

提案手法

  • 本手法は、正のサポート(パターン出現頻度)および負のサポート(非出現頻度)の2種類のサポートを導入し、パターンの類似性を測定する。
  • 候補パターンのサポート系列と基準サポート系列の重なりをモデル化するために、ベン図に基づくアプローチを採用する。
  • ベン図から導かれる集合の共通部分および和集合の演算を用いて、候補パターンのサポート系列と基準系列との類似性を計算する。
  • すべての候補パターンを抽出し、類似性プロファイルを計算するために、時間的データベースを一度のフルスキャンで処理する。
  • ベン図分析から導かれるユーザー指定の類似性閾値に基づいてパターンをフィルタリングし、関連するパターンのみを保持する。
  • 各段階におけるすべてのパターン部分集合の真のサポート値の再計算や保存を回避することで、抽出プロセスを簡素化する。

実験結果

リサーチクエスチョン

  • RQ1時間的データベースにおいて、時間的関連パターンを基準サポート系列に類似するものとして効果的に特定するにはどうすればよいか?
  • RQ2正確性や完全性を損なわず、時間的パターン抽出の計算コストを低減するメカニズムは何か?
  • RQ3複数回のスキャンを必要としない単一スキャンアプローチが、時間的パターン抽出において類似性検出を維持できるか?
  • RQ4正のサポート値と負のサポート値を組み合わせることで、時間的パターンの類似性プロファイルの精度を向上させることは可能か?
  • RQ5ベン図に基づく集合演算は、時間的パターン類似性の定量的評価においてどのような役割を果たすか?

主な発見

  • 提案手法は、時間的データベースを一度のスキャンで処理するため、計算コストの顕著な低減を達成する。
  • 正のサポート値と負のサポート値の併用により、従来のサポート値のみを用いた測定と比較して、より正確で洗練された類似性プロファイルが可能になる。
  • ベン図に基づく類似性計算により、ユーザーが指定した基準サポート系列に対するパターン類似性の有効な定量的評価が可能になる。
  • 反復処理の各段階ですべてのパターン部分集合の真のサポート値を維持・再計算する必要がなくなるため、メモリおよび処理コストが削減される。
  • ユーザーが指定した閾値内での類似性を持つ時間的関連パターンを効果的に同定でき、ユーザー主導のパターン発見が向上する。
  • 14ページの技術論文による検証を通じて、類似性プロファイル付き時間的パターン抽出における手法の実現可能性と効率性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。