[論文レビュー] Outcome-Oriented Predictive Process Monitoring: Review and Benchmark
本論文は、9つの実世界のイベントログから得た24のタスクを用いて、11の成果志向型予測プロセスモニタリング手法について、体系的レビュー、分類体系、ベンチマークを提示する。その結果、損失ありのシーケンス符号化(例:アクティビティ頻度)が、損失なしのインデックスベースの符号化を上回り、あらゆるトレース長にわたる単一モデルの学習を可能にし、AUCスコアをより高めることが判明した。
Predictive business process monitoring refers to the act of making predictions about the future state of ongoing cases of a business process, based on their incomplete execution traces and logs of historical (completed) traces. Motivated by the increasingly pervasive availability of fine-grained event data about business process executions, the problem of predictive process monitoring has received substantial attention in the past years. In particular, a considerable number of methods have been put forward to address the problem of outcome-oriented predictive process monitoring, which refers to classifying each ongoing case of a process according to a given set of possible categorical outcomes - e.g., Will the customer complain or not? Will an order be delivered, canceled or withdrawn? Unfortunately, different authors have used different datasets, experimental settings, evaluation measures and baselines to assess their proposals, resulting in poor comparability and an unclear picture of the relative merits and applicability of different methods. To address this gap, this article presents a systematic review and taxonomy of outcome-oriented predictive process monitoring methods, and a comparative experimental evaluation of eleven representative methods using a benchmark covering 24 predictive process monitoring tasks based on nine real-life event logs.
研究の動機と目的
- データセット、評価指標、ベースラインの不一致による、成果志向型予測プロセスモニタリングにおける比較可能性の欠如を解消すること。
- トレースバケッティングとシーケンス符号化に基づく分類体系を用いて、既存手法を体系的にレビューおよび分類すること。
- 9つの実世界のイベントログから得た24の予測モニタリングタスクを用いて、公平な手法比較を可能にする統一されたベンチマークを構築すること。
- オープンソースで拡張可能なフレームワークを用いて、同一の実験条件下で11の代表的手法を評価すること。
- モデル性能に影響を与える主な要因(例:コンセプトドリフト、特徴工学的選択)を同定すること。
提案手法
- 11の代表的成果志向型予測プロセスモニタリング手法を同定するため、体系的文献レビューを実施した。
- 2つの次元(トレースバケッティング手法:例として長さベース vs. バケッティングなし、およびシーケンス符号化手法:例としてインデックスベース vs. 頻度ベース)に基づく分類体系を提案した。
- すべての11の手法を統一されたオープンソースフレームワークに実装し、24のタスクすべてで一貫した評価を確保した。
- 実世界のイベントログを用いて、各タスクをプレフィックストレースと最終的なケース結果を含む予測モニタリングタスクとして構築した。
- 標準評価指標(例:AUC)を適用し、手法間の性能比較のための統計的分析を実施した。
- データ属性におけるコンセプトドリフトを統計的検定およびドリフト検出技術を用いて評価し、モデルのロバストネスを検証した。
実験結果
リサーチクエスチョン
- RQ1損失あり vs. 損失なしのシーケンス符号化戦略のうち、どの戦略が成果志向型プロセスモニタリングにおいてより高い予測精度を達成するか?
- RQ2トレースバケッティング戦略の選択が、異なるトレース長にわたるモデル性能および一般化性能にどのように影響するか?
- RQ3イベントログ属性におけるコンセプトドリフトが、予測モニタリングモデルの性能にどの程度影響を及えるか?
- RQ4すべてのプレフィックス長にわたって学習した単一の分類器は、長さバケッティングされたサブセットに特化して学習したモデルを上回る性能を示せるか?
- RQ5ケース間特徴量およびテキスト属性は、予測性能にどのように影響を及ぼすか?今後の拡張のための機会は何か?
主な発見
- 損失ありのシーケンス符号化(例:アクティビティ頻度)は、損失なしのインデックスベースの符号化を上回り、あらゆるトレース長にわたる学習を可能にするため、より高いAUCスコアを達成した。
- すべてのプレフィックス長にわたる統一された分類器の使用は、長さバケッティングされたアプローチを上回った。後者は複数のモデルを必要とし、一般化性能が劣る。
- 9つのデータセットのうち2つでコンセプトドリフトが検出され、これらはすべての評価手法の性能を顕著に低下させた。実践においてドリフト検出の必要性が浮き彫りになった。
- 最近のテキストマイニング技術の進展にもかかわらず、既存手法はテキスト属性をほとんど無視しており、特徴工学的拡張の余地がある。
- ケース間特徴量(例:未解決のケース数)は未だに活用が不十分であり、より豊かな文脈モデリングによってモデル精度を向上させる大きな機会が存在する。
- LSTMベースのモデルは、次アクティビティ予測や残り時間予測において成功を収めたが、成果予測では未だに十分に検討されていない。今後の研究の有望な方向性である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。