QUICK REVIEW

[论文解读] Heuristics Miners for Streaming Event Data

Andrea Burattin, Alessandro Sperduti|arXiv (Cornell University)|Dec 27, 2012

Business Process Modeling and Analysis参考文献 29被引用 61

一句话总结

本文提出一种面向在线流程挖掘的流感知框架，将启发式挖掘算法适配于连续、高吞吐量的事件数据流，以应对流程动态演变的场景。提出三种变体——在线HM、带老化机制的HM，以及带自适应老化机制的HM，实现实时模型发现，仅需极少存储空间，同时在概念漂移环境下保持高模型质量与强适应性，尤其适用于动态环境。

ABSTRACT

More and more business activities are performed using information systems. These systems produce such huge amounts of event data that existing systems are unable to store and process them. Moreover, few processes are in steady-state and due to changing circumstances processes evolve and systems need to adapt continuously. Since conventional process discovery algorithms have been defined for batch processing, it is difficult to apply them in such evolving environments. Existing algorithms cannot cope with streaming event data and tend to generate unreliable and obsolete results. In this paper, we discuss the peculiarities of dealing with streaming event data in the context of process mining. Subsequently, we present a general framework for defining process mining algorithms in settings where it is impossible to store all events over an extended period or where processes evolve while being analyzed. We show how the Heuristics Miner, one of the most effective process discovery algorithms for practical applications, can be modified using this framework. Different stream-aware versions of the Heuristics Miner are defined and implemented in ProM. Moreover, experimental results on artificial and real logs are reported.

研究动机与目标

解决在事件数据持续流动、高吞吐量且无法完整存储的场景下，因存储与计算资源受限而难以采用批处理方法进行流程模型挖掘的挑战。
实现在业务流程随时间动态演化的动态环境中实时流程发现，此场景为传统批处理导向的流程挖掘算法所不支持。
提出一种通用框架，将现有流程挖掘算法转化为在线、流感知版本，在最小化内存使用的同时保持模型质量。
在平稳与非平稳（漂移）数据条件下评估流感知流程挖掘技术的性能，重点关注模型拟合度、精确度与适应能力。
通过在人工、合成及真实事件数据流上实现并测试所提算法，为实际部署提供可行解决方案。

提出的方法

提出一种面向在线流程挖掘的通用框架，支持仅使用事件数据的有限代表性子集进行增量式模型构建，避免对整个数据流的完整存储。
将启发式挖掘算法改造为在线版本（在线HM），实现实时维护与更新活动之间的依赖关系，且所有事件权重相等。
引入带老化机制的HM，通过衰减因子α为较旧事件分配指数递减的权重，使模型能通过降低过时行为的影响来适应概念漂移。
开发带自适应老化机制的HM，根据检测到的概念漂移动态调整衰减因子α，提升对流程变化的响应速度，无需人工调参。
集成Lossy Counting算法作为流挖掘技术，以有界误差高效追踪频繁活动对，适用于高吞吐量数据环境。
采用精确度与拟合度作为评估指标，其中精确度偏好于最小化且准确的模型，避免因混合或漂移流程中瞬态行为导致的过拟合。

实验结果

研究问题

RQ1流程挖掘算法能否在事件数据连续流动、高吞吐量且无法完全存储的流处理环境中有效应用？
RQ2如何将如启发式挖掘等现有批处理导向的流程发现算法转化为增量式、在线版本，同时在极低内存使用下保持模型质量？
RQ3老化机制与动态参数自适应在流式流程数据存在概念漂移时，能在多大程度上提升模型准确性？
RQ4与传统的基于窗口或周期性重新计算的方法相比，流感知流程挖掘方法在模型拟合度、精确度与计算效率方面表现如何？
RQ5集成如Lossy Counting等流挖掘技术，能否增强在线流程发现的可扩展性与准确性，尤其在实时环境中？

主要发现

在线启发式挖掘（在线HM）在平稳数据流中实现了稳定且高质量的模型发现，无需重新处理或过度使用内存，性能保持一致。
在存在概念漂移的动态环境中，带自适应老化机制的HM优于固定老化与周期性重新计算方法，通过自动调整适应流程行为变化，长期保持最高精确度。
基于Lossy Counting的方法为有界误差下高效追踪频繁活动依赖关系提供了可扩展的替代方案，在高吞吐量场景中表现优异。
采用滑动窗口的基本方法表现尚可，但在精确度与对漂移的适应能力方面仍逊于专门设计的流感知算法。
在检测流程演化方面，模型精确度比拟合度更具可靠性，因为当模型同时包含旧与新流程变体时，拟合度可能因交替执行而产生误导。
所提出的流感知算法相比批处理重新计算，显著降低了时间和内存开销，使大规模、持续演化的系统实现实时流程挖掘成为可能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。