[论文解读] JXES : JSON Support for the XES Event Log Standard
本文提出了 JXES,一种符合 IEEE XES 规范的基于 JSON 的事件日志标准,支持高效、人类可读且可互操作的过程挖掘数据交换。该研究在 ProM 中实现了四种 JSON 解析器(Jackson、GSON、Simple JSON、Jsoninter)的实现,表明 Jackson 在内存效率方面表现最佳,而 Jsoninter 在导出性能方面最快,且与 XES 相比,JXES 文件大小最多可减少 45%。
Process mining assumes the existence of an event log where each event refers to a case, an activity, and a point in time. XES is an XML based IEEE approved standard format for event logs supported by most of the process mining tools. JSON (JavaScript Object Notation) is a lightweight data interchange format. In this paper, we present JXES, the JSON standard for the event logs and also provide implementation in ProM for importing and exporting event logs in JSON format using 4 different parsers. The evaluation results show notable performance differences between the different parsers (Simple JSON, Jackson, GSON, Jsoninter).
研究动机与目标
- 为过程挖掘领域解决现有基于 XML 的 XES 标准之外缺乏标准化、轻量级且可互操作的事件日志格式的问题。
- 通过定义一种保留 XES 语义的基于 JSON 的事件日志标准,实现过程挖掘工具间高效的数据交换。
- 在 ProM 中实现并评估多种基于 JSON 的解析器插件,用于导入和导出 JXES 格式的事件日志。
- 从速度、内存使用和文件大小三个方面,对比不同 JSON 解析器在真实世界和合成事件日志中的性能表现。
提出的方法
- 基于 XES 原则(简洁性、灵活性、可扩展性、表达能力)设计 JXES 格式:使用 JSON 对象表示日志、轨迹、事件、属性和扩展。
- 定义分层结构:日志包含轨迹,轨迹包含事件,每类均通过标准化的 JSON 键支持全局属性、嵌套属性、分类器和扩展。
- 在 ProM 中实现四种基于不同解析器的插件,用于 JXES 的导入和导出,分别使用 Jackson、GSON、Simple JSON 和 Jsoninter 解析器。
- 通过真实日志(BPIC15、BPIC17、Level D2、Flag X2)和人工日志对解析器性能进行基准测试,评估三项指标:导入/导出速度、内存消耗和文件大小。
- 使用 Java 的 Runtime.totalMemory() 和 freeMemory() 测量内存使用情况,并记录三次运行的平均执行时间以评估速度。
- 通过比较未压缩 XES、JXES 和压缩 XES 格式,评估文件大小的减少情况,指出 JXES 消除了冗余标签和类型声明。
实验结果
研究问题
- RQ1如何设计一种基于 JSON 的事件日志格式,在保留 XES 标准语义和可扩展性的同时,提升可读性和效率?
- RQ2在导入和导出大规模 JXES 格式事件日志时,不同 JSON 解析器(Jackson、GSON、Simple JSON、Jsoninter)在性能上存在哪些权衡?
- RQ3与 XES 和压缩 XES 相比,JXES 在文件大小上最多可减少多少?这对 I/O 和传输效率有何影响?
- RQ4在过程挖掘工作流中,哪种解析器在 JXES 导入和导出方面实现了速度与内存效率的最佳平衡?
- RQ5XES 与 JXES 之间的无损转换是否保留了所有元数据,包括全局属性、扩展和嵌套结构?
主要发现
- Jackson JSON 解析器在所有导入和导出操作中表现出最低的内存消耗,与 Simple JSON 相比,在最大日志(BPIC17)上内存使用量最多减少 70%。
- Jsoninter 实现了最快的导出速度,优于所有其他解析器,且比 XES Naive 导出快达 4 倍,归因于其动态类影子遮蔽三叉树解析机制。
- 与 XES 相比,JXES 文件大小最多减少 33%;与压缩 XES 相比,最多减少 45%;例如,BPIC15 5 日志从 XES 的 43.9 MB 减少至 JXES 的 29.6 MB。
- XES Naive 导入器在速度上表现出人意料的优异性能,可能是因为 XML 中显式声明了类型,而 JSON 需要完整解析以推断类型,增加了开销。
- XES 到 JXES 和 JXES 到 XES 的转换过程中未发生任何信息丢失,仅日志版本头不同,证实了语义保真性。
- 基于所有测试日志的性能评估,推荐导入使用 Jackson(内存效率最佳),导出使用 Jsoninter(速度最优)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。