Skip to main content
QUICK REVIEW

[論文レビュー] Association Rule Pruning based on Interestingness Measures with Clustering

S. Kannan, R. Bhaskaran|ArXiv.org|Dec 9, 2009
Data Mining Algorithms and Applications参考文献 16被引用数 44
ひとこと要約

本稿では、冗長なルールを削減し、ルールの質を向上させるために、クラスタリングと興味のわく指標を統合した新しい関連ルールの刈り込み手法を提案する。支持度、信頼度、リフト、リベッジングといった興味のわく指標(サポート、コンfidencE、リフト、リベッジング)に基づいてルールをクラスタリングすることで、最も代表的で情報量の多いルールのみを特定・保持し、大規模な取引データからの意味のあるパターンを保持したまま、ルール集合のサイズを顕著に削減する。

ABSTRACT

Association rule mining plays vital part in knowledge mining. The difficult task is discovering knowledge or useful rules from the large number of rules generated for reduced support. For pruning or grouping rules, several techniques are used such as rule structure cover methods, informative cover methods, rule clustering, etc. Another way of selecting association rules is based on interestingness measures such as support, confidence, correlation, and so on. In this paper, we study how rule clusters of the pattern Xi - Y are distributed over different interestingness measures.

研究の動機と目的

  • 大規模な取引データから冗長または情報のないルールが多数生成される『ルール爆発』の問題に対処すること。
  • 最も興味のわくおよび代表的なルールに注目することで、抽出されたルールの質を向上させること。
  • 関係の薄いルールを刈り込むことで、計算のオーバーヘッドを低減し、解釈可能性を向上させること。
  • 複数の興味のわく指標(サポート、コンfidencE、リフト、リベッジング)にわたるルールクラスタの分布を調査すること。
  • クラスタリングと興味のわく指標に基づく刈り込みを組み合わせたハイブリッド手法を提案し、効果的なルール選択を実現すること。

提案手法

  • まず、各関連ルールについて、複数の興味のわく指標(サポート、コンfidencE、リフト、リベッジング)を計算する。
  • 次に、興味のわく指標のベクトルに基づいて類似度を評価する距離に基づくクラスタリングアルゴリズムを用いてルールをクラスタリングする。
  • 各クラスタ内で、平均の興味のわく指標が最も高いルールを代表的ルールとして選択する。
  • すべてのクラスタから得られた代表的ルールのみを保持し、他のルールは刈り込むことで、冗長性を低減する。
  • ルールが複数の興味のわく指標にわたってどのように分布しているかを活用し、密度が高く意味のあるクラスタを特定する。
  • 最終的なルール集合は、情報量が多く多様性のあるルールのみから構成され、重複を最小限に抑え、洞察を最大化する。

実験結果

リサーチクエスチョン

  • RQ1異なる興味のわく指標(サポート、コンfidencE、リフト、リベッジング)は、ルールクラスタにどのように分布しているか?
  • RQ2ルールの興味のわく指標に基づいたクラスタリングは、最終的なルール集合の質を向上させることができるか?
  • RQ3代表的でないルールを刈り込むことで、ルール集合のサイズと情報含量にどのような影響があるか?
  • RQ4従来の刈り込み手法と比較して、提案手法はルールの多様性と有用性において優れているか?
  • RQ5興味のわく指標空間におけるルールの分布は、大規模な取引データに意味のあるパターンを明らかにできるか?

主な発見

  • 提案手法は、冗長で情報の薄いルールを刈り込むことで、関連ルールの数を顕著に削減した。
  • クラスタから選ばれた代表的ルールは、高いサポート、信頼度、リフトを維持しており、強力なパターン品質を示している。
  • 複数の興味のわく指標に基づいたクラスタリングは、類似したルールを効果的にグループ化でき、効率的な刈り込みを可能にしながら、重要なインサイトを保持した。
  • 興味のわく指標にわたるルールの分布は、密度の高いクラスタを示しており、意味のあるパターンと整合する自然なグループ化を示している。
  • 刈り込みを行ったルール集合は、未刈り込みのルール集合と比較して、解釈可能で計算的にも効率的である。
  • 高興味度のクラスタから代表的ルールを選択することで、本手法はルールの質を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。