Skip to main content
QUICK REVIEW

[论文解读] The Long and the Short of It: Summarising Event Sequences with Serial Episodes

Nikolaj Tatti, Jilles Vreeken|arXiv (Cornell University)|Feb 7, 2019
Data Mining Algorithms and Applications参考文献 27被引用 80
一句话总结

这篇论文使用 Minimum Description Length (MDL) 通过选择小而不冗余的串行事件集来总结事件序列,并提供两种用于构建模式集的搜索策略。

ABSTRACT

An ideal outcome of pattern mining is a small set of informative patterns, containing no redundancy or noise, that identifies the key structure of the data at hand. Standard frequent pattern miners do not achieve this goal, as due to the pattern explosion typically very large numbers of highly redundant patterns are returned. We pursue the ideal for sequential data, by employing a pattern set mining approach-an approach where, instead of ranking patterns individually, we consider results as a whole. Pattern set mining has been successfully applied to transactional data, but has been surprisingly under studied for sequential data. In this paper, we employ the MDL principle to identify the set of sequential patterns that summarises the data best. In particular, we formalise how to encode sequential data using sets of serial episodes, and use the encoded length as a quality score. As search strategy, we propose two approaches: the first algorithm selects a good pattern set from a large candidate set, while the second is a parameter-free any-time algorithm that mines pattern sets directly from the data. Experimentation on synthetic and real data demonstrates we efficiently discover small sets of informative patterns.

研究动机与目标

  • 通过寻求一个小而信息丰富、非冗余的模式集来有效总结数据,解决顺序模式挖掘中的模式爆炸问题。
  • 利用 Minimum Description Length 原理来评估并选择能简明描述事件序列的模式集。
  • 将序列编码形式化为通过串行 episode,并推导通过编码长度来衡量模型质量。
  • 提出两种寻找好模式集的方法:一个候选集合筛选法和一个无参数、随时挖掘法。
  • 在合成数据和真实数据上展示该方法的效率和质量,产出紧凑的摘要。

提出的方法

  • 将 MDL 框架应用于事件序列,串行 episode 通过 code tables 编码。
  • 使用 MDL 和香农熵为模式、gap、非-gap 标识符定义码长。
  • 开发一个基于对齐的编码/解码方案,并推导一个动态规划的 Align 方法以优化对齐。
  • 引入 Sqs (Summarising event seQuenceS) 在模式覆盖和对齐之间迭代,以最小化编码长度。
  • 提供两种挖掘策略:Sqs-Candidates(从候选集合贪心选择)和 Sqs-Search(直接、无参数、任意时挖掘)。
  • 分析复杂性和收敛特性,包括一个迭代过程,交替进行对齐和码表更新直到收敛。

实验结果

研究问题

  • RQ1如何用一个小而非冗余的串行 episode 集来高效地总结事件序列?
  • RQ2在 MDL 下,哪种编码方案(通过码表)能产生最佳的无损序列数据压缩?
  • RQ3如何最优对齐模式以最小化总编码长度并识别最小窗口?
  • RQ4如何直接从数据中挖掘高质量的码表,而不依赖于大型候选集合?
  • RQ5提出的方法 Sqs 的计算性质和在真实与合成数据上的实际性能。

主要发现

  • 该方法产生小而非冗余的模式集——通常只有几百个模式——能简明描述数据。
  • 实验表明该方法能高效发现信息丰富的模式,避免嘈杂或无关的频繁事件。
  • Sqs 在有限时间内收敛到局部最优,实际通常迭代次数较少。
  • 两种采集策略(Sqs-Candidates 和 Sqs-Search)实现了有效的模式集挖掘,可以从预先挖掘的候选集合或直接从数据中获得。
  • 基于编码长度的评估能有效区分优质模式集并捕捉事件序列的本质结构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。