[论文解读] ProcessTransformer: Predictive Business Process Monitoring with Transformer Network
论文介绍 ProcessTransformer,一种基于 Transformer 的模型,从事件日志中学习高层表示,以在最少预处理的情况下预测下一个活动、事件时间和剩余时间,在九个真实数据集上实现强大的准确性和 MAE。
Predictive business process monitoring focuses on predicting future characteristics of a running process using event logs. The foresight into process execution promises great potentials for efficient operations, better resource management, and effective customer services. Deep learning-based approaches have been widely adopted in process mining to address the limitations of classical algorithms for solving multiple problems, especially the next event and remaining-time prediction tasks. Nevertheless, designing a deep neural architecture that performs competitively across various tasks is challenging as existing methods fail to capture long-range dependencies in the input sequences and perform poorly for lengthy process traces. In this paper, we propose ProcessTransformer, an approach for learning high-level representations from event logs with an attention-based network. Our model incorporates long-range memory and relies on a self-attention mechanism to establish dependencies between a multitude of event sequences and corresponding outputs. We evaluate the applicability of our technique on nine real event logs. We demonstrate that the transformer-based model outperforms several baselines of prior techniques by obtaining on average above 80% accuracy for the task of predicting the next activity. Our method also perform competitively, compared to baselines, for the tasks of predicting event time and remaining time of a running case
研究动机与目标
- 动机:使用事件日志对正在运行的流程进行预测性业务过程监控(PBPM),以提升运营效率和资源管理。
- 提出一种基于 Transformer 的架构,在事件序列中捕获长距离依赖,且不使用递归。
- 证明端到端学习在最小预处理下即可在多个 PBPM 任务上实现具有竞争力或更优的性能。
提出的方法
- 使用可学习的嵌入向量以及36维位置编码对事件序列进行嵌入。
- 应用多头自注意力从轨迹中学习表示,且不使用递归。
- 使用全局最大池化和前馈层来产生任务特定的输出。
- 使用与任务相适应的损失函数进行训练:下一个活动使用分类交叉熵,时间预测使用回归损失(类似 MAE)。
- 在九个真实世界日志上进行评估,并与 PBPM 文献中的基线进行比较。
- 提供三个任务的结果:下一个活动预测、下一个事件时间和剩余时间预测。
实验结果
研究问题
- RQ1基于 Transformer 的模型是否能够在最少预处理的前提下,从原始事件日志中有效学习以完成 PBPM 任务?
- RQ2与既有基线相比,ProcessTransformer 在下一个活动、事件时间和剩余时间预测上的表现如何?
- RQ3事件序列中的长程依赖是否在跨多样化数据集的正在进行的案例中提升预测准确性?
主要发现
| 数据集 | 下一个活动准确率 (%) | 下一个活动 F-score | 事件时间 MAE (天) | 剩余时间 MAE (天) |
|---|---|---|---|---|
| Helpdesk | 85.63 | 0.82 | 2.98 | 3.72 |
| BPIC12 | 85.20 | 0.83 | 0.25 | 4.60 |
| BPIC12w | 91.51 | 0.91 | 0.37 | 4.87 |
| BPIC12cw | 78.48 | 0.77 | 0.82 | 5.14 |
| BPIC13 | 62.11 | 0.60 | 0.99 | 8.36 |
| BPIC20d | 86.07 | 0.84 | 1.22 | 2.44 |
| BPIC20i | 93.35 | 0.91 | 3.26 | 10.68 |
| Hospital | 85.83 | 0.82 | 9.33 | 44.87 |
| Traffic fines | 90.00 | 0.87 | 40.28 | 98.24 |
- 在评估的数据集中,下一步活动预测的平均准确率超过 80%。
- 下一步活动 MAE 在数据集上的范围:2.98(Helpdesk)、0.25(BPIC12)、0.37(BPIC12w)、0.82(BPIC12cw)、0.99(BPIC13)。
- 跨数据集的平均事件时间 MAE 为 1.08 天。
- 跨数据集的平均剩余时间 MAE 为 5.33 天。
- ProcessTransformer 在无需大量预处理或特征工程的情况下达到具竞争力或更优的性能。
- 该模型在九个真实日志上展示出强泛化能力,能够处理短轨迹和长轨迹。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。