QUICK REVIEW

[논문 리뷰] Chit-Chat or Deep Talk: Prompt Engineering for Process Mining

Urszula Jessen, Michal Sroka|arXiv (Cornell University)|2023. 07. 19.

Business Process Modeling and Analysis인용 수 8

한 줄 요약

이 논문은 대형 언어 모델을 역할별 프롬프트와 오케스트레이터와 함께 사용하여 프로세스 마이닝 데이터를 대화식으로 질의할 수 있도록 하는 프레임워크를 제시하고, GPT-3.5-turbo 및 GPT-4로 BPI Challenge 2019 데이터셋에서 효과성을 평가한다.

ABSTRACT

This research investigates the application of Large Language Models (LLMs) to augment conversational agents in process mining, aiming to tackle its inherent complexity and diverse skill requirements. While LLM advancements present novel opportunities for conversational process mining, generating efficient outputs is still a hurdle. We propose an innovative approach that amend many issues in existing solutions, informed by prior research on Natural Language Processing (NLP) for conversational agents. Leveraging LLMs, our framework improves both accessibility and agent performance, as demonstrated by experiments on public question and data sets. Our research sets the stage for future explorations into LLMs' role in process mining and concludes with propositions for enhancing LLM memory, implementing real-time user testing, and examining diverse data sets.

연구 동기 및 목표

프로세스 마이닝의 사용성 격차를 해소하여 비전문가가 대화식 에이전트를 통해 이벤트 데이터를 질의할 수 있도록 한다.
다양한 프로세스 마이닝 역할(분석가, 데이터 엔지니어, 도메인 전문가)을 모방하고 프롬프트를 오케스트레이션하는 LLM 아키텍처를 개발한다.
실제 질문과 데이터셋에서 제안된 접근법의 효과성을 평가하여 강점과 한계를 확인한다.

제안 방법

사용자 질문을 프로세스 이벤트 로그에 대한 SQL 쿼리로 번역하는 일반 프롬프트 엔지니어링 프레임워크를 제안한다.
임베딩을 통해 과거의 유사한 질문을 재사용하는 오케스트레이터를 도입하여 가능하면 재계산을 건너뛴다.
다중 프롬프트, 역할 기반 프롬프트 전략 및 SQL 실행 오류로부터 피드백을 포함한 프롬프트 워크플로를 통해 쿼리를 정제한다.
BPI Challenge 2019 데이터셋과 Barbieri 등의 질문 말뭉치를 사용하여 GPT-3.5-turbo 및 GPT-4로 평가한다.
완전/부분 정답 여부와 이해도 여부의 차원에서 수동 평가 기준을 사용하여 답변을 평가한다.

Figure 1: Architecture of a conversational agent for process mining

실험 결과

연구 질문

RQ1LLM이 구조화된 프롬프트 기반 대화 인터페이스를 통해 프로세스 마이닝 질문을 이해하고 응답할 수 있는가?
RQ2역할별 프롬프트와 반복적 SQL 질의의 오케스트레이션이 프로세스 마이닝 질의의 정확도와 유용성을 향상시키는가?
RQ3이 설정에서 모델 유형(GPT-3.5-turbo vs GPT-4)과 비용 대 정확도 간의 트레이드오프는 무엇인가?
RQ4유사한 질문의 임베딩 기반 검색이 응답 시간과 성공률에 어떤 영향을 미치는가?

주요 결과

결과	카운트	비율	카운트 [17]	비율 [17]
대답됨	285	36%	266	56%
부분적으로 대답됨	254	32%	42	9%
이해됨	155	19%	304	64%
부분적으로 이해됨	459	58%	42	9%

LLMs가 질문을 완전히 또는 부분적으로 이해하고 적절한 해결책을 제시한 사례가 77%였다.
모델이 정답 또는 부분적으로 정답인 답을 제공한 사례가 68%였다.
표 1(결과 비교): Answered 285 (36%), Partially answered 254 (32%), Understood 155 (19%), Partially understood 459 (58%).
GPT-4는 few-shot 학습으로 GPT-3.5-Turbo를 넘어선 추가 사례를 개선했지만 비용은 더 높다; zero-shot에서 GPT-3.5-Turbo는 61건(부분/완전)이 오류 주도 수정 후 개선되었고, GPT-4는 few-shot 모드에서 193건 부분적, 178건 완전 응답을 추가했다.
표 2는 모델별 zero-shot 및 few-shot 성능을 보여준다: GPT-3.5 Zero Shot 49 부분, Few Shot 12; GPT-4 Zero Shot 0, Few Shot 193; 전반적으로 GPT-4가 few-shot 모드에서 더 우수했다.
연구는 정확도와 비용 간의 트레이드오프를 강조하며, 전체 실용적 비용은 약 $60로 약 800개의 질문에 해당한다.

Figure 2: The general process of prompt engineering.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.