[論文レビュー] Chit-Chat or Deep Talk: Prompt Engineering for Process Mining
本論文は、大規模言語モデルを役割別プロンプトとオーケストレータと組み合わせ、プロセス・マイニングデータの対話的クエリを可能にするフレームワークを提案し、GPT-3.5-turboおよびGPT-4を用いてBPI Challenge 2019データセットで有効性を評価している。
This research investigates the application of Large Language Models (LLMs) to augment conversational agents in process mining, aiming to tackle its inherent complexity and diverse skill requirements. While LLM advancements present novel opportunities for conversational process mining, generating efficient outputs is still a hurdle. We propose an innovative approach that amend many issues in existing solutions, informed by prior research on Natural Language Processing (NLP) for conversational agents. Leveraging LLMs, our framework improves both accessibility and agent performance, as demonstrated by experiments on public question and data sets. Our research sets the stage for future explorations into LLMs' role in process mining and concludes with propositions for enhancing LLM memory, implementing real-time user testing, and examining diverse data sets.
研究の動機と目的
- プロセス・マイニングの usability ギャップを埋め、非専門家が対話エージェントを介してイベントデータを照会できるようにする。
- LLMs を用いて多様なプロセスマイニング役割(アナリスト、データエンジニア、ドメイン専門家)を模倣し、プロンプトをオーケストレーションする архитектураを開発する。
- 提案手法の有効性を実データと質問セットで評価し、長所と制限を特定する。
提案手法
- ユーザー質問をプロセスイベントログに対するSQLクエリへ翻訳する汎用的なプロンプト設計フレームワークを提案する。
- 埋め込みを用いて過去の類似質問を再利用するオーケストレータを導入し、再計算を回避できる場合は活用する。
- マルチプロンプト、役割ベースのプロンプト戦略と、SQL実行エラーからのフィードバックを用いてクエリを洗練するプロンプト作成のワークフローを促進する。
- GPT-3.5-turboとGPT-4を用いて、BPI Challenge 2019データセットとBarbieriらの質問コーパスで評価する。
- 回答を「完全に/部分的に正解」「理解した/部分的に理解した」の次元で評価するため、手動評価基準を用いる。

実験結果
リサーチクエスチョン
- RQ1LLMs は構造化された対話型インターフェースを通じてプロセス・マイニングの質問を理解し答えることができるか?
- RQ2役割別プロンプトと反復的なSQLクエリをオーケストレーションすることで、プロセス・マイニングクエリの回答の正確性と有用性は向上するか?
- RQ3この設定におけるモデル種別(GPT-3.5-turbo vs GPT-4)とコスト対精度のトレードオフはどうなるか?
- RQ4類似質問の埋め込みベースの検索は応答時間と成功率にどう影響するか?
主な発見
| Result | Count | Ratio | Count [17] | Ratio [17] |
|---|---|---|---|---|
| Answered | 285 | 36% | 266 | 56% |
| Partially answered | 254 | 32% | 42 | 9% |
| Understood | 155 | 19% | 304 | 64% |
| Partially understood | 459 | 58% | 42 | 9% |
- 77% の事例において、LLMs は質問を完全または部分的に理解し、適切な解決策を概説した。
- 68% のケースで、モデルは正解または部分的に正解の回答を提供した。
- 表1(結果の比較): Answered 285 (36%), Partially answered 254 (32%), Understood 155 (19%), Partially understood 459 (58%)。
- GPT-4 は few-shot 学習により GPT-3.5-Turbo を超える追加ケースを改善したがコストは高い;zero-shot の GPT-3.5-Turbo はエラー駆動の修正後に改善したケースが 61 件、GPT-4 は few-shot モードで 193 件の部分的回答と 178 件の完全回答を追加した。
- 表2 はモデル別の zero-shot および few-shot の性能を示す:GPT-3.5 Zero Shot 49 partial、Few Shot 12;GPT-4 Zero Shot 0、Few Shot 193;全体的には few-shot で GPT-4 がより良い。
- 本研究は、精度とコストのトレードオフを強調しており、実用的な総コストは約 $60 で ~800 件の質問。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。