QUICK REVIEW

[论文解读] A Scalable Database for the Storage of Object-Centric Event Logs

Farhang Ghahfarokhi, Anahita, Anahita Farhang Ghahfarokhi|arXiv (Cornell University)|Jan 1, 2022

Business Process Modeling and Analysis被引用 1

一句话总结

本论文提出了一种基于MongoDB的可扩展、原生数据库对象中心事件日志（OCEL）实现，通过利用面向文档的持久化、索引和原生聚合功能，实现了大规模事件数据的高效存储与查询。该方法通过减少内存压力，显著优于纯内存中的JSON解析，支持高达10000万条事件的日志，并通过BSON压缩大幅节省磁盘空间。

ABSTRACT

Object-centric process mining provides a set of techniques for the analysis of event data where events are associated to several objects. To store Object-centric Event Logs (OCELs), the JSON-OCEL and JSON-XML formats have been recently proposed. However, the proposed implementations of the OCEL are file-based. This means that the entire file needs to be parsed in order to apply process mining techniques, such as the discovery of object-centric process models. In this paper, we propose a database storage for the OCEL format using the MongoDB document database. Since documents in MongoDB are equivalent to JSON objects, the current JSON implementation of the standard could be translated straightforwardly in a series of MongoDB collections.

研究动机与目标

解决基于文件的OCEL存储在可扩展性方面的局限性，后者需要将完整日志加载到内存中，导致大规模日志耗尽系统内存。
利用文档型数据库实现对象中心事件日志的高效、可扩展存储与查询。
在数据库内原生支持高级过程挖掘操作（如生命周期提取和直接后继图计算），以减少数据传输并提升性能。
提供一个生产就绪、可扩展的工具链，用于OCEL数据的摄取、转换与分析，以MongoDB作为后端存储。

提出的方法

将JSON-OCEL模式直接映射到MongoDB集合：'ocel:events'、'ocel:objects'和'ocel:others'作为独立集合。
在events集合的'ocel:omap'和'ocel:activity'上应用多键索引，在objects集合的'ocel:id'和'ocel:type'上应用索引，以加速查询执行。
利用MongoDB的聚合管道在数据库内直接执行对象中心过程挖掘操作（如生命周期提取），使用$unwind和$group阶段。
通过专用的导入/导出脚本支持JSON/XML-OCEL与MongoDB存储之间的双向转换。
利用MongoDB的混合内存/磁盘计算模型，处理超出主内存容量的大规模数据集。
在数据库内原生实现基于聚合的操作，如按活动统计事件数、按对象类型统计信息，以及活动间时间间隔指标。

实验结果

研究问题

RQ1文档型数据库（如MongoDB）是否能够有效扩展以支持大规模对象中心事件日志的存储与查询，突破传统内存中文件解析的限制？
RQ2与传统内存中加载JSON相比，基于MongoDB的OCEL存储在内存和磁盘使用方面表现如何，特别是在大规模事件日志场景下？
RQ3原生数据库聚合在多大程度上可以替代对象中心过程挖掘中的应用层计算？
RQ4基于MongoDB的OCEL实现，在日志规模逐步增大（100万至10000万条事件）时，其性能与可扩展性特征如何？
RQ5原生数据库方法是否能够高效支持核心过程挖掘操作（如生命周期提取和直接后继图计算），并减少数据移动？

主要发现

MongoDB成功存储了高达10000万条事件的日志，而相同工作负载在纯内存JSON解析过程中导致了内存溢出错误。
通过BSON二进制压缩，磁盘使用量显著减少，10000万条事件日志在磁盘上仅占用36.5GB，尽管原始JSON大小为54.6GB。
随着数据量增加，索引大小显著增长，10000万条事件日志的索引达到16.9GB，但通过细粒度索引实现了快速查询执行。
mDFG计算时间随数据量增加而上升，但由于MongoDB的混合内存/磁盘处理机制，避免了内存耗尽，因此仍保持可行。
数据库原生聚合管道通过$unwind和$group操作实现了高效的生命周期提取，减少了数据传输，并支持可扩展分析。
该工具链与现有OCEL标准完全兼容，并支持JSON/XML与MongoDB格式之间的双向转换。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。