QUICK REVIEW

[论文解读] Scalable Online Conformance Checking Using Incremental Prefix-Alignment Computation

Daniel Schuster, Gero J. Kolhof|arXiv (Cornell University)|Dec 22, 2020

Business Process Modeling and Analysis参考文献 17被引用 7

一句话总结

本文提出了一种可扩展的、基于 Apache Kafka 的分布式增量前缀对齐计算实现，用于在线合规性检查，实现了对实时流程数据流的精确偏差检测。通过引入直接同步和前缀缓存机制，该方法显著减少了计算时间——最高实现 14 倍加速——同时保持了较低的消费者延迟，使工业系统中的实时合规性监控成为可能。

ABSTRACT

Conformance checking techniques aim to collate observed process behavior with normative/modeled process models. The majority of existing approaches focuses on completed process executions, i.e., offline conformance checking. Recently, novel approaches have been designed to monitor ongoing processes, i.e., online conformance checking. Such techniques detect deviations of an ongoing process execution from a normative process model at the moment they occur. Thereby, countermeasures can be taken immediately to prevent a process deviation from causing further, undesired consequences. Most online approaches only allow to detect approximations of deviations. This causes the problem of falsely detected deviations, i.e., detected deviations that are actually no deviations. We have, therefore, recently introduced a novel approach to compute exact conformance checking results in an online environment. In this paper, we focus on the practical application and present a scalable, distributed implementation of the proposed online conformance checking approach. Moreover, we present two extensions to said approach to reduce its computational effort and its practical applicability. We evaluate our implementation using data sets capturing the execution of real processes.

研究动机与目标

填补现有实践中可扩展的在线合规性检查在提供精确偏差检测且无误报方面的空白。
通过以极低延迟增量处理事件流，实现实时流程执行监控。
降低在线对齐计算的计算开销，使精确合规性检查在生产环境中可行。
设计一种基于 Apache Kafka 的分布式、容错架构，以处理来自真实流程的高吞吐量事件流。
通过两项新扩展（直接同步与前缀缓存）提升性能，增强可扩展性与效率。

提出的方法

利用 Apache Kafka 作为流处理平台，将在线合规性检查流水线分布并扩展到多个节点。
通过在每个新事件到达时扩展最短路径问题的搜索空间，实现增量前缀对齐计算，确保每一步都获得最优对齐。
引入直接同步机制，通过检查当前事件是否可直接与模型同步而无需中间步骤，避免冗余路径探索。
在每个 Kafka 代理节点上使用进程内 TinyLFU 缓存，存储并重用前缀对齐结果，减少对频繁出现前缀的重复计算。
采用分布式状态管理模式，每个流程实例维护独立的搜索状态，实现独立处理与容错能力。
对真实事件日志应用时间压缩，以模拟高吞吐量数据流，同时保留时间语义以供评估。

实验结果

研究问题

RQ1在分布式流处理环境中，增量前缀对齐计算能否高效地扩展以支持实时流程监控？
RQ2直接同步与前缀缓存对在线合规性检查的性能与可扩展性有何影响？
RQ3所提出的扩展在处理真实世界事件流时，能在多大程度上减少计算时间与消费者延迟？
RQ4两项扩展在多种真实流程日志上是否具有协同增效作用？
RQ5在高吞吐量事件流环境下，精确在线合规性检查在工业系统中的实际可行性如何？

主要发现

在 BPI Ch. 2020 日志上，DSC 变体（同时采用直接同步与前缀缓存）相比基线 PL 版本，平均每条轨迹的计算时间实现了 14 倍加速。
在 BPI Ch. 2020 日志上，前缀缓存将平均计算时间降低至每条轨迹 14ms，而基线版本为 1449ms。
DSC 变体中消费者延迟显著降低，仅有 0.01% 的消息在 100ms 内未被处理，表明处理延迟极低。
仅使用直接同步扩展时，在 BPI Ch. 2019 日志上平均计算时间减少了 80%，但在 BPI Ch. 2017 日志上效果较弱，因适用性有限。
在大多数日志上，两项扩展表现出协同增效作用，DSC 在所有测试数据集上均优于单独使用任一扩展或基线版本。
系统成功处理了高达 890 天历史数据压缩为 10 分钟回放时间的真实事件流，证明了其可扩展性与实时可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。