QUICK REVIEW

[論文レビュー] Scalable Online Conformance Checking Using Incremental Prefix-Alignment Computation

Daniel Schuster, Gero J. Kolhof|arXiv (Cornell University)|Dec 22, 2020

Business Process Modeling and Analysis参考文献 17被引用数 7

ひとこと要約

本稿では、Apache Kafka を用いたスケーラブルで分散型のインクリメンタルなプレフィックス同期合致計算の実装を提示し、リアルタイムのプロセスストリームにおける正確な逸脱検出を可能にしている。直接同期化とプレフィックスキャッシュの導入により、計算時間を顕著に短縮（最大14倍の高速化）しつつ、コンシューマラグを低く保っている。これにより、産業システムにおけるリアルタイムの適合性監視が現実的となる。

ABSTRACT

Conformance checking techniques aim to collate observed process behavior with normative/modeled process models. The majority of existing approaches focuses on completed process executions, i.e., offline conformance checking. Recently, novel approaches have been designed to monitor ongoing processes, i.e., online conformance checking. Such techniques detect deviations of an ongoing process execution from a normative process model at the moment they occur. Thereby, countermeasures can be taken immediately to prevent a process deviation from causing further, undesired consequences. Most online approaches only allow to detect approximations of deviations. This causes the problem of falsely detected deviations, i.e., detected deviations that are actually no deviations. We have, therefore, recently introduced a novel approach to compute exact conformance checking results in an online environment. In this paper, we focus on the practical application and present a scalable, distributed implementation of the proposed online conformance checking approach. Moreover, we present two extensions to said approach to reduce its computational effort and its practical applicability. We evaluate our implementation using data sets capturing the execution of real processes.

研究の動機と目的

誤検出のない正確な逸脱検出を提供する実用的でスケーラブルなオンライン適合性チェックのギャップを埋める。
最小限のレイテンシでイベントストリームを段階的に処理することで、プロセス実行のリアルタイム監視を可能にする。
生産環境での正確な適合性チェックを実現可能にするために、オンライン同期合致計算の計算オーバーヘッドを低減する。
Apache Kafka を用いた分散型でフェイルセーフなアーキテクチャを設計し、実世界のプロセスからの高スルーレートイベントストリームを処理する。
二つの新規拡張（直接同期化とプレフィックスキャッシュ）を通じて、スケーラビリティと効率性を向上させる。

提案手法

複数のノードに分散・スケーリング可能なオンライン適合性チェックパイプラインを実現するため、ストリーミングプラットフォームとして Apache Kafka を活用する。
各新しいイベントごとに最短経路問題の探索空間を拡張することで、インクリメンタルなプレフィックス同期合致計算を実装し、各段階で最適な同期合致を保証する。
現在のイベントが中間ステップを経ずにモデルと直接同期可能かどうかを確認することで、重複した経路探索を回避する直接同期化を導入する。
各 Kafka ブローカー・ノードごとにインラインの TinyLFU キャッシュを活用し、プレフィックス同期合致を格納・再利用することで、頻繁に出現するプレフィックスの再計算を削減する。
各プロセスインスタンスが自身の探索状態を維持する分散状態管理パターンを採用することで、独立した処理とフェイルセーフ性を実現する。
評価のための時間圧縮を実世界のイベントログに適用し、時間的意味を保持したまま高速度ストリームをシミュレートする。

実験結果

リサーチクエスチョン

RQ1インクリメンタルなプレフィックス同期合致計算は、分散ストリーミング環境で効率的にスケーリング可能であり、リアルタイムのプロセス監視が可能か？
RQ2直接同期化とプレフィックスキャッシュは、オンライン適合性チェックのパフォーマンスとスケーラビリティにどのように影響を与えるか？
RQ3提案された拡張機能は、実世界のイベントストリーム処理において、計算時間とコンシューマラグをどの程度低減するか？
RQ4両方の拡張機能を組み合わせた場合、多様な実世界のプロセスログにおいて性能向上に相乗効果をもたらすか？
RQ5高スルーレートのイベントストリームを持つ産業システムに、正確なオンライン適合性チェックを実装することが実用的か？

主な発見

BPI Ch. 2020 ログにおいて、DSCバージョン（直接同期化とプレフィックスキャッシュの両方を有効にした）は、ベースラインのPLバージョンと比較して、1トレースあたりの平均計算時間を14倍高速化した。
プレフィックスキャッシュにより、BPI Ch. 2020 ログでは1トレースあたりの平均計算時間が14msにまで短縮された。これは、プレーンバージョンの1449msと比較して顕著な改善である。
DSCバージョンではコンシューマラグが顕著に低減され、100msを超えてキューに積まれたメッセージはわずか0.01%にとどまり、処理遅延が小さいことが示された。
直接同期化拡張機能のみを適用した場合、BPI Ch. 2019 ログでは平均計算時間を80%削減したが、BPI Ch. 2017 ログでは適用範囲が限られ、効果が限定的であった。
二つの拡張機能は大多数のログで相乗効果を示し、DSCはすべてのテストデータセットにおいて、個別の拡張機能およびベースラインを上回るパフォーマンスを発揮した。
本システムは、最大890日分の歴史的データを10分間の再再生時間に圧縮して処理でき、スケーラビリティとリアルタイム処理の実現可能性を実証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。