[論文レビュー] Heuristics Miners for Streaming Event Data
本論文は、継続的で高ボリュームのイベントデータを処理し、進化するプロセスに対応するためのストリーム対応フレームワークを提案する。Heuristics Minerアルゴリズムをオンライン処理に適応させ、最小限のストレージでリアルタイムのモデル発見を可能にし、概念ずれ(concept drift)に対しても高いモデル品質と適応性を達成する。3つの変種—Online HM、Aging付きHM、自己適応的Ageing付きHM—を導入することで、動的環境における高い性能を実現する。
More and more business activities are performed using information systems. These systems produce such huge amounts of event data that existing systems are unable to store and process them. Moreover, few processes are in steady-state and due to changing circumstances processes evolve and systems need to adapt continuously. Since conventional process discovery algorithms have been defined for batch processing, it is difficult to apply them in such evolving environments. Existing algorithms cannot cope with streaming event data and tend to generate unreliable and obsolete results. In this paper, we discuss the peculiarities of dealing with streaming event data in the context of process mining. Subsequently, we present a general framework for defining process mining algorithms in settings where it is impossible to store all events over an extended period or where processes evolve while being analyzed. We show how the Heuristics Miner, one of the most effective process discovery algorithms for practical applications, can be modified using this framework. Different stream-aware versions of the Heuristics Miner are defined and implemented in ProM. Moreover, experimental results on artificial and real logs are reported.
研究の動機と目的
- ストレージと計算リソースの制約によりバッチ処理が不可能な、継続的かつ高スルーレートのイベントストリームからプロセスモデルをマイニングする課題に対処すること。
- ビジネスプロセスが時間経過とともに変化する動的環境において、従来のバッチ指向のプロセスマイニングアルゴリズムでは対応できないリアルタイムのプロセス発見を可能にすること。
- 既存のプロセスマイニングアルゴリズムをオンラインでストリーム対応に変換する一般化されたフレームワークを構築し、モデル品質を維持しながらメモリ使用量を最小限に抑えること。
- 定常的でない(ずれを伴う)データ条件下でのストリーム対応プロセスマイニング技術の性能を評価し、モデル適合度(fitness)、正確性(precision)、適応性に焦点を当てる。
- 人工的・合成的・実世界のイベントストリームを用いて実装・テストすることで、実世界への展開に向けた実用的ソリューションを提供すること。
提案手法
- 完全なストリームの保存を避けるために、限定的で代表的なイベントデータのサブセットのみを用いて、逐次的なモデル構築を可能にするオンラインプロセスマイニングの一般化されたフレームワークを提案する。
- Heuristics Minerアルゴリズムをオンライン版(Online HM)に変換し、すべてのイベントに等しい重みを割り当てて、リアルタイムで活動間の依存関係を維持・更新する。
- Aging付きHMでは、割れ要因αを用いて古いイベントに指数関数的に減少する重みを割り当て、古くなった行動の影響を軽減することで、概念ずれへの適応性を高める。
- 自己適応的Ageing付きHMでは、検出された概念ずれに基づいて割れ要因αを動的に調整し、手動のチューニングなしでプロセス変化に迅速に対応する。
- 高スルーレートのデータに適した、誤差が保証された頻度の高い活動ペアの追跡が可能なストリームマイニング技術として、Lossy Countingアルゴリズムを統合する。
- 精度(precision)と適合度(fitness)を評価指標として用い、精度は混合またはずれを伴うプロセスにおける一時的な行動への過剰適合を避ける最小限で正確なモデルを優遇する。
実験結果
リサーチクエスチョン
- RQ1イベントデータが継続的で高ボリュームであり、完全な保存が不可能なストリーム処理環境において、プロセスマイニングアルゴリズムを効果的に適応できるか。
- RQ2Heuristics Minerのような従来のバッチ指向プロセス発見アルゴリズムを、モデル品質を維持しながらメモリ使用量を最小限に抑える、インクリメンタルでオンライン対応のバージョンに変換する方法は何か。
- RQ3年齢付け機構と動的パrameter調整は、ストリーミングプロセスデータにおける概念ずれの下で、どの程度モデルの正確性を向上させられるか。
- RQ4ストリーム対応プロセスマイニングアプローチは、従来のウィンドウベースまたは定期再計算手法と比較して、モデル適合度、正確性、計算効率の面でどの程度優れているか。
- RQ5Lossy Countingのようなストリームマイニング技術の統合は、リアルタイム環境におけるオンラインプロセス発見のスケーラビリティと正確性を向上させられるか。
主な発見
- Online Heuristics Miner(Online HM)は、定常的ストリームにおいて安定的かつ高品質なモデル発見を達成し、再処理や過剰なメモリ使用なしに一貫した性能を維持する。
- 自己適応的Ageing付きHMは、概念ずれを伴う動的環境において、固定年齢付けや定期再計算手法を上回り、変化するプロセス行動に自動的に適応することで、時間経過とともに最高の正確性を達成する。
- Lossy Countingに基づくアプローチは、誤差が保証された範囲で頻度の高い活動依存関係を効率的に追跡するスケーラブルな代替手段を提供し、高スルーレート環境でも優れた性能を示す。
- スライディングウィンドウを用いた基本的手法は妥当な性能を示すが、特に正確性とずれへの適応性において、専用のストリーム対応アルゴリズムに劣る。
- モデルの正確性は、適合度よりもプロセスの進化を検出するのにより信頼性が高く、適合度は古いと新しいプロセスバージョンが交互に実行される場合に、誤解を招く可能性がある。
- 提案されたストリーム対応アルゴリズムは、バッチ再処理と比較して、時間的・メモリ的オーバーヘッドを顕著に削減し、大規模で進化を続けるシステムにおけるリアルタイムプロセスマイニングを現実可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。