Skip to main content
QUICK REVIEW

[论文解读] A Novel Approach for Mining Similarity Profiled Temporal Association Patterns

Vangipuram Radhakrishna, P. V. Kumar|arXiv (Cornell University)|Apr 18, 2016
Data Mining Algorithms and Applications参考文献 14被引用 24
一句话总结

本文提出了一种新颖的单次扫描方法,通过结合正向支持值与负向支持值,并利用基于文氏图的相似性分析,从时间数据库中挖掘具有相似性特征的时间关联模式。该方法在无需迭代扫描数据库或维护所有子集支持值的情况下,高效识别出与用户指定的参考支持序列相似的模式,相比传统频繁模式挖掘技术显著降低了计算开销。

ABSTRACT

The problem of frequent pattern mining from non-temporal databases is studied extensively by various researchers working in areas of data mining, temporal databases and information retrieval. However, Conventional frequent pattern algorithms are not suitable to find similar temporal association patterns from temporal databases. A Temporal database is a database which can store past, present and future information. The objective of this research is to come up with a novel approach so as to find similar temporal association patterns w.r.t user specified threshold and a given reference support time sequence using concept of Venn diagrams. For this, we maintain two types of supports called positive support and negative support values to find similar temporal association patterns of user interest. The main advantage of our method is that, it performs only a single scan of temporal database to find temporal association patterns similar to specified reference support sequence. This single database scan approach hence eliminates the huge overhead incurred when the database is scanned multiple times. The present approach also eliminates the need to compute and maintain true support values of all the subsets of temporal patterns of previous stages when computing temporal patterns of next stage.

研究动机与目标

  • 为解决传统频繁模式挖掘算法在处理随时间演变的时间数据库时的局限性。
  • 实现对与用户定义的参考支持序列相似的时间关联模式的高效发现。
  • 消除在多轮迭代过程中对所有模式子集的真实支持值进行维护和重新计算的需求。
  • 引入基于文氏图的相似性特征分析机制,根据用户指定的阈值量化时间模式的相似性。
  • 通过最小化冗余的数据库扫描和支撑值计算,降低时间关联模式挖掘中的计算开销。

提出的方法

  • 该方法引入两种支持度类型:正向支持(模式出现的频率)和负向支持(模式未出现的频率),用于度量模式相似性。
  • 采用基于文氏图的方法,对候选模式的支持序列与参考支持序列之间的重叠进行建模。
  • 通过从文氏图中推导出的集合交集与并集运算,计算候选模式支持序列与参考序列之间的相似性。
  • 算法仅对时间数据库执行一次完整扫描,以提取所有候选模式并计算其相似性特征。
  • 基于从文氏图分析中得出的用户指定相似性阈值对模式进行过滤,确保仅保留相关模式。
  • 该方法避免在每一级中重新计算或存储所有模式子集的真实支持值,从而简化了挖掘过程。

实验结果

研究问题

  • RQ1如何在时间数据库中有效识别出与参考支持序列相似的时间关联模式?
  • RQ2哪些机制可在不牺牲准确性或完整性的情况下降低时间模式挖掘的计算成本?
  • RQ3单次数据库扫描方法能否替代时间模式挖掘中的多次扫描,同时保持模式相似性检测能力?
  • RQ4正向与负向支持值如何结合以提升时间模式相似性特征分析的精度?
  • RQ5基于文氏图的集合运算在量化时间模式相似性方面发挥何种作用?

主要发现

  • 所提出的方法通过仅对时间数据库进行一次扫描,显著降低了计算开销。
  • 使用正向与负向支持值相比仅使用传统支持度的度量方式,能实现更精确且细致的相似性特征分析。
  • 基于文氏图的相似性计算方法能够有效量化候选模式相对于用户定义参考序列的相似性。
  • 该方法消除了在多轮迭代中维护和计算所有模式子集真实支持值的需求,降低了内存与处理成本。
  • 该方法成功识别出在用户指定阈值范围内与参考序列相似的时间关联模式,增强了用户驱动的模式发现能力。
  • 该技术在挖掘具有相似性特征的时间模式方面展现出可行性与高效性,已通过一篇14页的技术期刊论文得到验证。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。