[论文解读] RapidProM: Mine Your Processes and Not Just Your Data
RapidProM 通过扩展 RapidMiner 以支持流程挖掘功能,使用户能够设计、执行并重用结合流程挖掘与通用数据挖掘技术的复杂分析工作流。它支持对事件日志进行流程发现、合规性检查和性能分析,显著提升了在不同数据集和领域中流程挖掘实验的可重用性和自动化水平。
The number of events recorded for operational processes is growing every year. This applies to all domains: from health care and e-government to production and maintenance. Event data are a valuable source of information for organizations that need to meet requirements related to compliance, efficiency, and customer service. Process mining helps to turn these data into real value: by discovering the real processes, by automatically identifying bottlenecks, by analyzing deviations and sources of non-compliance, by revealing the actual behavior of people, etc. Process mining is very different from conventional data mining and machine learning techniques. ProM is a powerful open-source process mining tool supporting hundreds of analysis techniques. However, ProM does not support analysis based on scientific workflows. RapidProM, an extension of RapidMiner based on ProM, combines the best of both worlds. Complex process mining workflows can be modeled and executed easily and subsequently reused for other data sets. Moreover, using RapidProM, one can benefit from combinations of process mining with other types of analysis available through the RapidMiner marketplace.
研究动机与目标
- 填补现有数据挖掘工具在缺乏原生支持事件数据流程中心分析方面的空白。
- 支持创建和重用复杂且可定制的流程挖掘工作流,使其与更广泛的数据挖掘流水线集成。
- 通过结合 RapidMiner 的工作流引擎与 ProM 的前沿流程挖掘算法,弥合传统数据挖掘工具与流程挖掘之间的鸿沟。
- 支持研究人员和实践者系统性地分析操作流程,以提升合规性、效率和性能。
- 促进在多个数据集和参数配置下可复现且可扩展的流程挖掘实验。
提出的方法
- 将 ProM 的流程挖掘算法作为插件集成到 RapidMiner 中,利用 RapidMiner 的可视化工作流环境。
- 提供专用算子用于流程发现、合规性检查和性能分析,将事件视为流程实例的一部分。
- 允许用户通过 RapidMiner 的可视化界面构建可重用的分析工作流,包括支持参数化实验的循环和子流程。
- 支持将性能指标(例如等待时间、停留时间)投影到流程模型上,以实现可视化和统计分析。
- 支持基于性能阈值(如吞吐时间或等待时间)对事件日志进行过滤和交互式探索。
- 通过 RapidMiner Marketplace 将流程挖掘与其他数据挖掘技术结合,支持混合分析工作流。
实验结果
研究问题
- RQ1如何在不同数据集和流程类型之间高效设计和重用流程挖掘工作流?
- RQ2流程挖掘在多大程度上可以集成到通用数据挖掘平台中,以支持端到端的分析流水线?
- RQ3通过基于工作流的流程挖掘方法,可以在真实世界事件日志中识别出哪些性能瓶颈和偏差?
- RQ4流程挖掘与数据挖掘工具的集成在多大程度上提升了流程分析的可扩展性和可复现性?
- RQ5流程中心分析与可重用工作流的结合,是否能在电子政务和医疗保健等领域的实践中产生更具行动意义的洞察?
主要发现
- ‘Send for Credit Collection’ 活动的平均等待时间为 17.61 个月,表明该流程存在严重瓶颈。
- ‘Receive Result Appeal from Prefecture’ 活动的平均等待时间为 5.06 个月,表明存在外部依赖导致的延迟。
- ‘Add Penalty’ 活动的标准差极低,仅为 30 分钟,表明该活动很可能是自动执行的。
- 付款的平均等待时间为 1.92 个月,接近法律规定的 2 个月期限,但标准差高达 4.08 个月,表明时间安排不一致。
- 数据集中持续时间最长的案例长达 114.57 个月,突显了可能存在数据质量问题,如事件日志记录不准确。
- 性能指标被有效投影到规范流程模型上,支持交互式过滤和按颜色编码的性能可视化,以反映各活动的性能表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。