QUICK REVIEW

[论文解读] Creating Unbiased Public Benchmark Datasets with Data Leakage Prevention for Predictive Process Monitoring

Hans Weytjens, Jochen De Weerdt|arXiv (Cornell University)|Jan 1, 2021

Business Process Modeling and Analysis参考文献 7被引用 1

一句话总结

本文提出了一套标准化、可复现的框架，用于在预测性流程监控中创建无偏见的公开基准数据集，通过严格的时序划分和案例持续时间过滤，消除数据泄露和测试集偏差。基于九个广泛使用的BPIC数据集，作者证明其预处理方法显著提升了结果的可比性和模型的公平性，公开提供的脚本可广泛采用，以加速研究进展。

ABSTRACT

Advances in AI, and especially machine learning, are increasingly drawing research interest and efforts towards predictive process monitoring, the subfield of process mining (PM) that concerns predicting next events, process outcomes and remaining execution times. Unfortunately, researchers use a variety of datasets and ways to split them into training and test sets. The documentation of these preprocessing steps is not always complete. Consequently, research results are hard or even impossible to reproduce and to compare between papers. At times, the use of non-public domain knowledge further hampers the fair competition of ideas. Often the training and test sets are not completely separated, a data leakage problem particular to predictive process monitoring. Moreover, test sets usually suffer from bias in terms of both the mix of case durations and the number of running cases. These obstacles pose a challenge to the field's progress. The contribution of this paper is to identify and demonstrate the importance of these obstacles and to propose preprocessing steps to arrive at unbiased benchmark datasets in a principled way, thus creating representative test sets without data leakage with the aim of levelling the playing field, promoting open science and contributing to more rapid progress in predictive process monitoring.

研究动机与目标

识别并解决预测性流程监控中的三大主要障碍：数据集预处理不一致、训练/测试集重叠导致的数据泄露，以及测试集构成中的偏差。
通过建立原则化、标准化的预处理流水线，促进公共数据集研究的可复现性和公平比较。
创建无偏见的基准数据集，预定义训练集和测试集，确保时间上的分离以及案例持续时间分布的平衡。
鼓励研究社区采用标准化基准而非自定义数据划分，从而加速该领域的发展。

提出的方法

应用严格的时序划分，确保任何案例前缀都不会同时出现在训练集和测试集中，从而消除数据泄露。
过滤掉最长的最多5%的案例，以找到最优的案例持续时间阈值，使训练集规模最大化，同时保持时间上的分离。
基于固定的20%划分定义测试集，对测试窗口起始和结束处的不完整案例前缀进行仔细处理。
采用系统化方法确定最大案例持续时间，以确保训练集具有代表性，且不与测试集案例重叠。
通过移除异常值并调整起始/结束时间，实现去偏，以平衡测试集中运行案例的数量和持续时间。
提供开源脚本，用于复现所有九个BPIC数据集的预处理流水线，确保透明度和可重用性。

实验结果

研究问题

RQ1训练集和测试集中存在重叠的案例前缀时，数据泄露在剩余时间预测中的表现如何影响预测性能？
RQ2测试集构成中的偏差——特别是案例持续时间分布和运行案例数量——在多大程度上影响模型评估和结果可比性？
RQ3何种预处理策略可在无数据泄露的前提下，生成无偏见、具代表性的测试集，同时最大化训练集规模？
RQ4不同的数据划分策略对多个公共数据集上基线CNN模型的平均绝对误差（MAE）有何影响？
RQ5标准化、公开可用的基准框架是否能提升可复现性，并加速预测性流程监控领域的发展？

主要发现

所提出的预处理方法通过确保任何案例前缀都不会同时出现在训练集和测试集中，显著减少了数据泄露，这对有效的模型评估至关重要。
采用该方法构建的测试集展现出平衡的案例持续时间分布和稳定的运行案例数量，降低了模型性能评估中的偏差。
采用20%测试集划分并优化最大案例持续时间，可获得更大、更具代表性的训练集，从而提升模型泛化能力。
对于BPIC 2020国内和国际申报数据集，异常值移除后训练集规模降至原始数据集的10%以下，使其不再适合严肃研究。
CNN模型的MAE在不同预处理选择下表现出显著差异，表明数据集设计对预测性能具有直接且可衡量的影响。
作者成功创建并发布了九个公共流程挖掘数据集的基准数据集，包含训练/测试集规模、持续时间及案例完整性的详细元数据，支持可复现研究。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。