Skip to main content
QUICK REVIEW

[论文解读] PLG2: Multiperspective Processes Randomization and Simulation for Online and Offline Settings

Andrea Burattin|arXiv (Cornell University)|Jun 28, 2015
Business Process Modeling and Analysis参考文献 28被引用 33
一句话总结

PLG2 引入了一个全面的框架,用于生成多视角流程模型,并模拟具有概念漂移的离线日志和在线事件流。它将随机流程生成扩展至包含控制流、时间和数据视角,从而能够在存在噪声和动态变化的情况下,真实地模拟大规模数据场景,支持在多样化、类现实世界条件下的流程挖掘算法的稳健评估。

ABSTRACT

Process mining represents an important field in BPM and data mining research. Recently, it has gained importance also for practitioners: more and more companies are creating business process intelligence solutions. The evaluation of process mining algorithms requires, as any other data mining task, the availability of large amount of real-world data. Despite the increasing availability of such datasets, they are affected by many limitations, in primis the absence of a "gold standard" (i.e., the reference model). This paper extends an approach, already available in the literature, for the generation of random processes. Novelties have been introduced throughout the work and, in particular, they involve the complete support for multiperspective models and logs (i.e., the control-flow perspective is enriched with time and data information) and for online settings (i.e., generation of multiperspective event streams and concept drifts). The proposed new framework is able to almost entirely cover the spectrum of possible scenarios that can be observed in the real-world. The proposed approach is implemented as a publicly available Java application, with a set of APIs for the programmatic execution of experiments.

研究动机与目标

  • 解决缺乏金标准流程模型和真实、大规模流程挖掘数据集以供算法评估的问题。
  • 克服现有工具仅支持控制流建模或离线模拟的局限性。
  • 支持具有概念漂移的在线、流式场景模拟,以及多视角数据(控制流、时间、数据)的模拟。
  • 为研究人员提供一个灵活的、可编程的框架,用于生成多样化、真实的流程挖掘测试用例。
  • 支持在大数据条件下(包括高吞吐量、多样性与可变性)的新流程挖掘算法的开发与评估。

提出的方法

  • 在先前流程生成框架的基础上扩展,采用基于语法的随机模型创建方法,并引入概率规则以增强行为可变性。
  • 提出一种正式的内部业务流程表示方法,支持控制流、时间和数据视角。
  • 采用多视角模拟方法,生成包含真实噪声、时间分布和数据对象分布的事件日志。
  • 支持以可配置的事件生成速率持续生成无限事件流,并引入动态概念漂移(如模型切换)。
  • 实现漂移机制,通过在流生成过程中切换不同流程模型,模拟现实世界中的流程演化。
  • 提供基于 Java 的 API 和独立应用程序,支持实验的程序化和批量执行。

实验结果

研究问题

  • RQ1如何系统且随机地生成包含控制流、时间与数据视角的多视角流程模型,以支持多样化的评估场景?
  • RQ2如何从已知的参考模型生成真实、带噪声且多视角的事件日志,作为金标准?
  • RQ3如何模拟具有动态概念漂移的在线连续事件流,以反映现实世界中的流程演化?
  • RQ4该框架在多大程度上能够模拟流程挖掘中的大数据特征,如高吞吐量、多样性与可变性?
  • RQ5该框架如何支持在真实、动态变化条件下的流式流程挖掘算法评估?

主要发现

  • PLG2 能够成功生成包含控制流、时间与数据视角的多视角流程模型,从而实现对现实世界业务流程的全面模拟。
  • 该框架支持生成反映实际流程执行模式的真实、带噪声的事件日志,包括时间偏差与数据对象变化。
  • 对具有概念漂移的在线流模拟提供了有效支持,可建模随时间变化的动态流程变更。
  • 该框架能够模拟演化的流程挖掘场景,例如从一个流程模型过渡到另一个模型,这对测试流式算法至关重要。
  • 该工具通过其 Java API 支持自动评估工作流,使研究人员能够跨大规模生成的模型与日志库扩展实验规模。
  • 案例研究证明,即使在概念漂移之后,流式挖掘算法在足够观测后仍能正确识别流程模型,验证了该框架的真实性和实用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。