Skip to main content
QUICK REVIEW

[論文レビュー] A Scalable Database for the Storage of Object-Centric Event Logs

Farhang Ghahfarokhi, Anahita, Anahita Farhang Ghahfarokhi|arXiv (Cornell University)|Jan 1, 2022
Business Process Modeling and Analysis被引用数 1
ひとこと要約

本論文では、ドキュメント指向の永続化、インデクシング、ネイティブな集計機能を活用して、大規模なイベントデータの効率的な保存とクエリ処理を可能にする、MongoDBを用いたスケーラブルでデータベースネイティブなObject-Centric Event Logs (OCEL)の実装を提案する。このアプローチは、メモリ内JSONパースよりもメモリ圧力を軽減し、最大1億件のイベントを扱える。BSON圧縮により、ディスク使用量も大幅に削減される。

ABSTRACT

Object-centric process mining provides a set of techniques for the analysis of event data where events are associated to several objects. To store Object-centric Event Logs (OCELs), the JSON-OCEL and JSON-XML formats have been recently proposed. However, the proposed implementations of the OCEL are file-based. This means that the entire file needs to be parsed in order to apply process mining techniques, such as the discovery of object-centric process models. In this paper, we propose a database storage for the OCEL format using the MongoDB document database. Since documents in MongoDB are equivalent to JSON objects, the current JSON implementation of the standard could be translated straightforwardly in a series of MongoDB collections.

研究の動機と目的

  • ファイルベースのOCELストレージのスケーラビリティの限界に対処すること。これは、大規模なログでは全データをメモリに読み込む必要があり、システムメモリが枯渇する。
  • ドキュメントデータベースを用いて、オブジェクト中心のイベントログの効率的でスケーラブルなストレージとクエリ処理を可能にすること。
  • ライフサイクル抽出や直接従うグラフ計算といった高度なプロセスマイニング操作をデータベース内でネイティブに実行することで、データ転送を削減し、パフォーマンスを向上させること。
  • MongoDBをバックエンドとして用いる、OCELデータのインジェクション、変換、分析を対象とした生産環境対応で拡張可能なツールチェーンを提供すること。

提案手法

  • JSON-OCELスキーマをMongoDBのコレクションに直接マッピング:'ocel:events'、'ocel:objects'、'ocel:others' を別々のコレクションとして定義。
  • イベントの'ocel:omap' および 'ocel:activity' にマルチキーインデックスを適用し、オブジェクトの'ocel:id' および 'ocel:type' に対しても同様にインデックスを適用することで、クエリ実行を高速化。
  • MongoDBの集計パイプラインを活用し、$unwind および $group ステージを用いて、オブジェクト中心のプロセスマイニング操作(例:ライフサイクル抽出)をデータベース内で直接実行。
  • 専用のインポート/エクスポートスクリプトを用いて、JSON/XML-OCEL と MongoDB ストレージ間の双方向変換をサポート。
  • 大容量データセットをメインメモリの容量を超えて処理できるよう、MongoDBのディスク上およびメモリ上での計算のハイブリッドモデルを活用。
  • イベントのアクティビティごとのカウント、オブジェクトタイプの統計、アクティビティ間時間のメトリクスなど、ネイティブな集計ベースの操作をデータベース内で実装。

実験結果

リサーチクエスチョン

  • RQ1MongoDBのようなドキュメントデータベースは、メモリ内ファイルベースのパースの限界を超えて、大規模なオブジェクト中心のイベントログの保存とクエリ処理を効果的にスケーリングできるか?
  • RQ2大規模なイベントログにおいて、MongoDBベースのOCELストレージのメモリ使用量とディスク使用量は、従来のメモリ内JSONロードと比べてどの程度異なるか?
  • RQ3ネイティブなデータベース集計は、オブジェクト中心のプロセスマイニングにおいて、アプリケーションレベルの計算をどの程度置き換えられるか?
  • RQ4100万件から1億件のイベントを含むログのスケールが増加するに従い、MongoDBベースのOCEL実装のパフォーマンスとスケーラビリティ特性はどのように変化するか?
  • RQ5データベースネイティブなアプローチは、ライフサイクル抽出や直接従うグラフ計算といったコアなプロセスマイニング操作を、効率的かつデータ移動を最小限に抑えて実行できるか?

主な発見

  • MongoDBは1億件のイベントを含むログを正常に保存できたが、同じワークロードではメモリ内JSONパース処理でメモリ不足エラーが発生した。
  • BSONバイナリ圧縮によりディスク使用量が大幅に削減され、1億件のログでは、元のJSON形式の54.6GBに対して、ディスク上ではわずか36.5GBにまで減少した。
  • インデックスサイズはデータ量に比例して著しく増加し、1億件のログでは16.9GBに達したが、細粒度のインデックスによりクエリ実行が高速化された。
  • mDFGの計算時間はデータサイズに比例して増加したが、MongoDBのハイブリッドメモリ/ディスク処理により、メモリ枯渇を回避し、実行可能であった。
  • データベースネイティブな集計パイプラインにより、$unwind および $group を用いたライフサイクル抽出が効率的に行われ、データ転送が削減され、スケーラブルな分析が可能になった。
  • ツールチェーンは既存のOCEL標準仕様と完全に互換性があり、JSON/XML と MongoDB 形式間の双方向変換をサポートした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。