[論文レビュー] Creating Unbiased Public Benchmark Datasets with Data Leakage Prevention for Predictive Process Monitoring
本論文は、予測プロセスモニタリングにおける偏りのない公開ベンチマークデータセットを作成するための標準的で再現可能なフレームワークを提案する。データ漏洩やテストセットバイアスを排除するために、厳密な時系列分割とケースの継続時間フィルタリングを実施する。9つの広く使われているBPICデータセットを用いて、著者らは前処理手法が結果の比較可能性とモデルの公平性を顕著に向上させることを示した。公開のスクリプトにより、研究進展の加速が可能となる。
Advances in AI, and especially machine learning, are increasingly drawing research interest and efforts towards predictive process monitoring, the subfield of process mining (PM) that concerns predicting next events, process outcomes and remaining execution times. Unfortunately, researchers use a variety of datasets and ways to split them into training and test sets. The documentation of these preprocessing steps is not always complete. Consequently, research results are hard or even impossible to reproduce and to compare between papers. At times, the use of non-public domain knowledge further hampers the fair competition of ideas. Often the training and test sets are not completely separated, a data leakage problem particular to predictive process monitoring. Moreover, test sets usually suffer from bias in terms of both the mix of case durations and the number of running cases. These obstacles pose a challenge to the field's progress. The contribution of this paper is to identify and demonstrate the importance of these obstacles and to propose preprocessing steps to arrive at unbiased benchmark datasets in a principled way, thus creating representative test sets without data leakage with the aim of levelling the playing field, promoting open science and contributing to more rapid progress in predictive process monitoring.
研究の動機と目的
- 予測プロセスモニタリングにおける3つの主要な障壁を特定・解決すること:不一致なデータセット前処理、重複するトレーニング/テストセットからのデータ漏洩、テストセット構成のバイアス。
- 原則的で標準化された前処理パイプラインを確立することで、研究間の再現性と公準的な比較を促進すること。
- 時系列的分離とバランスの取れたケース継続時間分布を保証する、事前に定義されたトレーニングおよびテストセットを備えた偏りのないベンチマークデータセットを作成すること。
- 研究コミュニティがカスタムデータ分割ではなく標準化されたベンチマークを採用することを奨励し、分野全体の進展を加速すること。
提案手法
- トレーニングおよびテストセットの両方に同じケースプレフィックスが現れないように、厳密な時系列分割を実施し、データ漏洩を排除する。
- 最大5%の最も長期間継続するケースを除外することで、トレーニングセットのサイズを最大化しつつ時系列的分離を維持する最適なケース継続時間の閾値を特定する。
- 固定された20%のテストセットスプリットに基づいてテストセットを定義し、テストウィンドウの開始および終了部における未完了のケースプレフィックスを適切に処理する。
- テストセットのケースと重複しないように、代表的なトレーニングセットが得られる最大のケース継続時間を体系的に特定するアプローチを採用する。
- 外れ値の削除と開始/終了時刻の調整によりデバイアス化を実装し、テストセット内の実行中ケースの数と継続時間をバランスさせる。
- 全9つのBPICデータセットに対して、前処理パイプラインを再現可能なオープンソーススクリプトで提供し、透明性と再利用可能性を確保する。
実験結果
リサーチクエスチョン
- RQ1トレーニングおよびテストセットに重複するケースプレフィックスが存在する場合、残りの時間予測における予測性能にどのような影響を与えるか?
- RQ2特にケース継続時間分布および実行中ケース数に起因するテストセット構成のバイアスは、モデル評価および結果の比較可能性にどの程度影響を及えるか?
- RQ3データ漏洩を回避しつつ、代表的で偏りのないテストセットを生成するための最適な前処理戦略は何か?
- RQ4異なるデータ分割戦略が、複数の公開データセットにおいてベースラインCNNモデルの平均絶対誤差(MAE)にどのように影響を与えるか?
- RQ5標準化され、公開可能なベンチマーキングフレームワークは、予測プロセスモニタリング分野における再現性の向上と研究進展の加速に寄与できるか?
主な発見
- 提案された前処理手法により、トレーニングおよびテストセットの両方に同じケースプレフィックスが現れないようにすることで、データ漏洩が顕著に低減され、モデル評価の有効性が保証される。
- 本手法で構築されたテストセットは、バランスの取れたケース継続時間分布と安定した実行中ケース数を示し、モデル性能評価におけるバイアスが低減された。
- 最適化された最大ケース継続時間と20%のテストセットスプリットを組み合わせることで、より大きくて代表的なトレーニングセットが得られ、モデルの一般化性能が向上した。
- BPIC 2020 DomesticおよびInternational Declarationsにおいて、外れ値の除外後、トレーニングセットサイズが元のデータセットの10%未満にまで低下し、真剣な研究には不適切となった。
- CNNモデルのMAEは、異なる前処理の選択肢によって顕著に変動し、データセット設計が予測性能に直接的かつ測定可能な影響を与えることが示された。
- 著者らは、9つの公開プロセスマイニングデータセットについて、トレーニング/テストセットサイズ、継続時間、ケースの完全性に関する詳細なメタデータを含む、ベンチマークデータセットを成功裏に作成・公開した。これにより、再現可能な研究が可能となった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。