Skip to main content
QUICK REVIEW

[論文レビュー] Revisiting Numerical Pattern Mining with Formal Concept Analysis

Mehdi Kaytoue, Sergei O. Kuznetsov|arXiv (Cornell University)|Nov 24, 2011
Rough Sets and Fuzzy Logic参考文献 12被引用数 27
ひとこと要約

本稿では、従来のバイナリデータへのスケーリングに依存せず、区間パターンを直接扱うことで、数値データのマイニングにための新規フレームワークを提案する。閉区間パターンと生成子を導入し、効率的なアルゴリズム(MinIntChange-h および MinIntChange-t)を設計した。実世界のデータを用いた実験により、本手法は、特に低サポート閾値において、パターンの重複を著しく低減し、計算時間を短縮することが示された。探索空間における圧縮比は 10⁻⁷ から 10⁻⁹ の範囲に達する。

ABSTRACT

In this paper, we investigate the problem of mining numerical data in the framework of Formal Concept Analysis. The usual way is to use a scaling procedure --transforming numerical attributes into binary ones-- leading either to a loss of information or of efficiency, in particular w.r.t. the volume of extracted patterns. By contrast, we propose to directly work on numerical data in a more precise and efficient way, and we prove it. For that, the notions of closed patterns, generators and equivalent classes are revisited in the numerical context. Moreover, two original algorithms are proposed and used in an evaluation involving real-world data, showing the predominance of the present approach.

研究の動機と目的

  • 従来のバイナリデータへのスケーリングに起因する非効率性と情報損失を解消するため。
  • 形式概念分析におけるパターン構造を用いて、数値データにおける閉区間パターンと生成子を形式化するため。
  • 頻出閉区間パターンおよびその生成子をマイニングするための効率的アルゴリズムの設計と評価。
  • バイナリ符号化手法に比べ、直接的な数値マイニングが計算効率とパターンの冗長性の観点で優れていることを示すため。
  • ユークリッド空間における区間パターンの幾何学的・意味的解釈を提供し、データマイニングの改善を図るため。

提案手法

  • 各属性にわたる有限区間のベクトルとして、数値データを区間パターンとして表現する。
  • サポートを、すべての区間内に属性値が含まれるオブジェクトの数として定義する。
  • 同値クラス、閉パターン、生成子を定義するための区間パターン上の包含関係を導入する。
  • 同値クラス内の最大要素としての閉区間パターンを導出するために、閉包作用素を適用する。
  • 閉区間パターンおよびその生成子を効率的にマイニングするための2つのアルゴリズム(MinIntChange-h および MinIntChange-t)を提案する。
  • MinIntChange-t では、トライベースのデータ構造を用いて閉集合を格納し、それらに関連する生成子を関連付けることで、高速な検索と圧縮を実現する。

実験結果

リサーチクエスチョン

  • RQ1バイナリスケーリングに依存せずに、形式概念分析を用いた数値パターンマイニングをどのように形式化できるか。
  • RQ2区間パターンの文脈において、同値クラス、閉パターン、生成子の構造的性質は何か。
  • RQ3バイナリ符号化手法に比べ、区間パターンの直接的マイニングは、計算効率と冗長性の観点でどのように異なるか。
  • RQ4閉区間パターンおよび生成子の全探索空間に対する圧縮比はどの程度か。
  • RQ5従来のアイテムセットに比べ、区間パターンは数値データマイニングにおいてより効果的かつ意味的に明確な表現を提供できるか。

主な発見

  • 提案手法は、全探索空間に比べてパターン数を 10⁷ から 10⁹ 倍まで圧縮でき、強力な圧縮能力を示した。
  • 低サポート閾値(例:10% や 25%)において、MinIntChange-t アルゴリズムは、バイナリベースの手法に比べ実行時間が優れており、AP や BK のような大規模データセットにおいて顕著に顕著であった。
  • 1% サポートのデータセット BL において、頻出アイテムセット生成子(FISG)のうちわずか 1.6% のみが頻出区間パターン生成子(FIPG)に対応しており、バイナリ符号化による著しい冗長性が示された。
  • MinIntChange-t アルゴリズムは最良のパフォーマンスを達成したが、閉集合をトライに単語として格納し、関連する生成子を関連付ける必要があるため、メモリ使用量が増加した。
  • FIPG と FCIP(頻出閉区間パターン)の比は常に 1.5 を上回っており、生成子が閉パターン単体よりも情報量が多く、よりコンパクトであることが確認された。
  • 古典的な集合包含関係よりも強い部分順序を提供するため、生成子の数が少なく抑えられ、数値データマイニングにおけるパターンの意味的解釈が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。