QUICK REVIEW

[論文レビュー] Mining All Non-Derivable Frequent Itemsets

Toon Calders, Bart Goethals|ArXiv.org|Jun 3, 2002

Data Mining Algorithms and Applications参考文献 12被引用数 24

ひとこと要約

本稿では、完全な推論規則の集合を用いてきめ細かいサポートバウンズを導出し、頻度の高いアイテムセットの最小で簡潔な表現を可能にする、非導出可能な頻度の高いアイテムセット（NDIs）を抽出するための新しいフレームワークを提案する。この手法により、結果のサイズが著しく削減され、データベース全体のスキャンを回避することで、従来のアルゴリズムよりも優れた性能を発揮する。

ABSTRACT

Recent studies on frequent itemset mining algorithms resulted in significant performance improvements. However, if the minimal support threshold is set too low, or the data is highly correlated, the number of frequent itemsets itself can be prohibitively large. To overcome this problem, recently several proposals have been made to construct a concise representation of the frequent itemsets, instead of mining all frequent itemsets. The main goal of this paper is to identify redundancies in the set of all frequent itemsets and to exploit these redundancies in order to reduce the result of a mining operation. We present deduction rules to derive tight bounds on the support of candidate itemsets. We show how the deduction rules allow for constructing a minimal representation for all frequent itemsets. We also present connections between our proposal and recent proposals for concise representations and we give the results of experiments on real-life datasets that show the effectiveness of the deduction rules. In fact, the experiments even show that in many cases, first mining the concise representation, and then creating the frequent itemsets from this representation outperforms existing frequent set mining algorithms.

研究の動機と目的

論理的推論によって導出可能なパターンを特定することで、重複する頻度の高いアイテムセットを同定・削除すること。
データベースのスキャンを伴わずに、候補アイテムセットのきめ細かいサポートインターバルを導出する完全な推論規則の集合を構築すること。
すべての頻度の高いアイテムセットを保持する最小の表現、すなわち非導出可能な頻度の高いアイテムセット（NDIs）を構築すること。
NDI表現を事前にマイニングし、その後に完全なサポートを推論することで、標準的な頻度の高いアイテムセットマイニングよりも高速であることを示すこと。
NDIsと既存の簡潔な表現（閉じた集合、フリー集合、論理和を含まない集合など）との理論的および実験的関係を確立すること。

提案手法

部分集合のサポートに基づいてアイテムセットのサポートバウンズを推論する形式的な推論規則のフレームワーク（R_I(S)）を提案する。
Iプロジェクションを用いて関連するトランザクションを特定し、データベース全体のスキャンを伴わずに効率的にサポートバウンズを計算する。
すべての頻度の高いアイテムセットを推論できる最小の集合として、非導出可能な頻度の高いアイテムセット（NDIs）の概念を導入する。
再帰的な推論メカニズムを用いて、NDI集合に含まれないすべての頻度の高いアイテムセットの正確なサポート値を導出する。
計算コストと表現サイズのバランスを考慮し、指定された深さ（例：深さ1または2）まで規則を適用するが、完全な深さで完全性が保証される。
MAXMINERおよびPASCALで知られている最適化技術をフレームワークに統合し、それらが提案された規則の特殊なケースであることを示す。

実験結果

リサーチクエスチョン

RQ1部分集合のサポートから候補アイテムセットのサポートバウンズを推論できる完全かつ整合的な推論規則の集合を定義できるか？
RQ2これらの規則をどのように用いて、すべての頻度の高いアイテムセットの最小で損失のない表現を構築できるか？
RQ3実際のデータセットにおいて、簡潔なNDI表現をマイニングし、その後にサポートを推論する方法が、従来の頻度の高いアイテムセットマイニングをどの程度上回るか？
RQ4提案された推論規則は、閉じた集合、フリー集合、論理和を含まない集合といった既存の簡潔な表現とどのように関係しているか？
RQ5直接的なデータベーススキャンと比較して、推論に基づくサポート導出による性能向上はどの程度か？

主な発見

提案された推論規則は完全かつ整合的であり、部分集合のサポートに基づいてすべての候補アイテムセットの正確なサポートを推論可能である。
非導出可能な頻度の高いアイテムセット（NDIs）の集合は、すべての頻度の高いアイテムセットの最小で損失のない表現を形成し、結果のサイズを著しく削減する。
実験の結果、NDI表現を事前にマイニングし、その後に完全なサポートを推論することで、多くの実世界のデータセットにおいて、既存の頻度の高いアイテムセットマイニングアルゴリズムを上回ることが示された。
深さ1または2までの規則の適用でも、性能は最適に近い水準に達しており、より深い規則適用による利得は限定的であることが示された。
このフレームワークは、PASCAL や MAXMINER といった先行研究を統合・一般化し、それらが提案された規則系の特殊なケースであることを示した。
理論的分析により、NDIsは論理和を含まない集合の真の部分集合であることが確認され、また、閉じたアイテムセットのサイズは常にフリー集合のサイズ以上でないことが判明した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。