[论文解读] PMAx: An Agentic Framework for AI-Driven Process Mining
PMAx 是一个自主、隐私保护的框架,采用两方代理人(工程师与分析师)在本地生成与解释过程挖掘产物,避免 LLM 幻觉与数据泄露。
Process mining provides powerful insights into organizational workflows, but extracting these insights typically requires expertise in specialized query languages and data science tools. Large Language Models (LLMs) offer the potential to democratize process mining by enabling business users to interact with process data through natural language. However, using LLMs as direct analytical engines over raw event logs introduces fundamental challenges: LLMs struggle with deterministic reasoning and may hallucinate metrics, while sending large, sensitive logs to external AI services raises serious data-privacy concerns. To address these limitations, we present PMAx, an autonomous agentic framework that functions as a virtual process analyst. Rather than relying on LLMs to generate process models or compute analytical results, PMAx employs a privacy-preserving multi-agent architecture. An Engineer agent analyzes event-log metadata and autonomously generates local scripts to run established process mining algorithms, compute exact metrics, and produce artifacts such as process models, summary tables, and visualizations. An Analyst agent then interprets these insights and artifacts to compile comprehensive reports. By separating computation from interpretation and executing analysis locally, PMAx ensures mathematical accuracy and data privacy while enabling non-technical users to transform high-level business questions into reliable process insights.
研究动机与目标
- 通过自然语言交互使非技术用户也能获得过程洞察,从而民主化过程挖掘。
- 通过在本地执行计算并使用隐私保护元数据,消除对外部 AI 服务获取原始数据的依赖。
- 提供一个可靠的、自我纠错的执行循环,确保在无需人工干预的情况下输出准确结果。
- 提供基于标准 Python 工具的可扩展、开源架构,便于部署和定制。
提出的方法
- 引入隐私保护的事件日志元数据抽象,以将原始数据保留在本地环境中。
- 部署一个分而治之的多代理工作流,工程师代理合成可执行的用于 PM4Py 分析的 Python 代码,分析师代理解读产物并生成报告。
- 应用受限的、白名单工具集(PM4Py、pandas、numpy、matplotlib、plotly、seaborn),并进行静态验证与运行时自我纠错循环。
- 维护协作式内存状态,将代码生成上下文与解释上下文分离,确保信息交换高效。
- 在 ProMoAI 中提供一个开源扩展,支持本地部署与新增过程挖掘任务的可扩展性。
- 描述一个代码合成工作流,包括基于角色的上下文注入、通过本地对象进行数据访问,以及严格的 API 约束以防止不安全执行。
实验结果
研究问题
- RQ1在确保原始日志本地化的情况下,AI 如何帮助过程挖掘以保护数据隐私?
- RQ2自主代理能否从自然语言提示中准确合成并执行过程挖掘分析(模型、指标、可视化)?
- RQ3相比直接利用大模型查询,双代理(工程师与分析师)设置在可靠性与可解释性上能提升到何种程度?
- RQ4PMAx 在现实数据集上回答业务问题(工作流发现、吞吐量、瓶颈、相关机会等)时的实用性与有效性如何?
主要发现
- 框架在不向外部共享原始事件数据的前提下,从自然语言线索中获得数据支撑的洞察。
- 经验证的代码生成循环能够产生可执行的 Python 脚本,在本地运行且对错误具有自我纠错能力。
- 分析师组件生成综合报告,结合叙述性解读与基于实证结果的可视化证据。
- PMAx 是开源的,基于标准 Python 库构建,设计为可扩展以支持额外的过程挖掘任务。
- 在真实数据集上的实时演示展示了通过产物生成与报告自动处理若干业务问题的能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。